繁体   English   中英

从一组HTML文件中提取表格内容的最佳方法是什么?

[英]What's the best way to extract table content from a group of HTML files?

使用TIDY清理完整的HTML文件的文件夹后,如何提取表格内容以进行进一步处理?

我过去使用过BeautifulSoup这样的东西取得了巨大的成功。

取决于您想要做什么样的处理。 您可以告诉Tidy生成XHTML,这是一种XML,这意味着您可以在结果上使用所有常用的XML工具,如XSLT和XQuery。

如果要在Microsoft Excel中处理它们,那么您应该能够将表格从HTML中分割出来并放入文件中,然后在Excel中打开该文件:它会很乐意将HTML表格转换为电子表格页面。 然后,您可以将其保存为CSV或Excel工作簿等。(您甚至可以在Web服务器上使用它 - 返回HTML表,但将Content-Type标头设置为application/ms-vnd.excel :Excel将打开并且导入表格并将其转入电子表格。)

如果您希望CSV输入到数据库,那么您可以像以前一样通过Excel,或者如果您想自动化该过程,您可以编写一个程序,使用您选择的XML导航API来迭代表行和将它们保存为CSV。 Python的Elementtree和CSV模块可以让这很容易。

在审核了这些建议之后,我结束了使用HtmlUnit

使用HtmlUnit,我能够自定义Java代码以打开文件夹中的每个HTML文件,导航到TABLE标记,查询每个列内容并提取创建CSV文件所需的数据。

遍历文本并使用正则表达式:)

http://www.knowledgehouse.sg

在.NET中,您可以使用HTMLAgilityPack

有关详细信息,请参阅StackOverflow上的上一个问题

如果要从HTML标记中提取内容,则应使用某种类型的HTML解析器。 为此目的有很多,这里有两个可能满足您的需求:

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM