[英]Best way to organize text through patterns?
我已经抓取了很多信息,需要将其组织成几个领域。 唯一的问题是,在用于标识它并创建模式和匹配器的信息之前没有特定的标头。 我在下面提供了2组数据的信息。 如图所示,标识符只是“左”或“中心”,显示它们在屏幕上的位置。 通过在每个数据集中添加每个字段,将每组数据搜索和组织为CSV的最佳方法是什么? 需要保存的数据将是“ left”或“ center”之后的所有内容。
<td align="left">ERIK DAVIDOVIC, ET AL </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center">
<a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack('ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum','')" style="display:inline-block;width:100px;">CV-13-798497</a>
</td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td>
</tr><tr style="background-color:Gainsboro;">
<td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center">
<a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack('ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum','')" style="display:inline-block;width:100px;">CV-13-798498</a>
</td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td>
</tr><tr style="background-color:LightGrey;">
您可以使用http://jsoup.org/之类的解析器来解析html文件并使用选择器提取信息。
希望能帮助到你。
实际上,这是一个结构漂亮的表格。
您应该能够在<td..>
上进行解析以知道新值正在开始,然后在<tr>
上开始新行
您只需计算行中的哪个<td>
即可知道该值代表哪一列。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.