繁体   English   中英

通过模式组织文本的最佳方法?

[英]Best way to organize text through patterns?

我已经抓取了很多信息,需要将其组织成几个领域。 唯一的问题是,在用于标识它并创建模式和匹配器的信息之前没有特定的标头。 我在下面提供了2组数据的信息。 如图所示,标识符只是“左”或“中心”,显示它们在屏幕上的位置。 通过在每个数据集中添加每个字段,将每组数据搜索和组织为CSV的最佳方法是什么? 需要保存的数据将是“ left”或“ center”之后的所有内容。

<td align="left">ERIK DAVIDOVIC, ET AL  </td><td align="left">5620 GOODMAN DRIVE</td><td align="center">NORTH ROYALTON</td><td align="center">44133-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_0" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl02$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798497</a>
                    </td><td align="center">488-05-029</td><td align="center">I</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:Gainsboro;">


            <td align="left">UNKNOWN HEIRS, ETC OF D.C. RUFUS, ET AL  </td><td align="left">10603 HAMPDEN AVENUE</td><td align="center">CLEVELAND</td><td align="center">44108-0000</td><td align="center">
                        <a id="SheetContentPlaceHolder_ctl00_gvForeclosureResutls_lbCaseNum_1" href="javascript:__doPostBack(&#39;ctl00$SheetContentPlaceHolder$ctl00$gvForeclosureResutls$ctl03$lbCaseNum&#39;,&#39;&#39;)" style="display:inline-block;width:100px;">CV-13-798498</a>
                    </td><td align="center">109-16-094</td><td align="center">A</td><td align="center">01/02/2013</td>
        </tr><tr style="background-color:LightGrey;">

您可以使用http://jsoup.org/之类的解析器来解析html文件并使用选择器提取信息。

希望能帮助到你。

实际上,这是一个结构漂亮的表格。

您应该能够在<td..>上进行解析以知道新值正在开始,然后在<tr>上开始新行

您只需计算行中的哪个<td>即可知道该值代表哪一列。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM