繁体 English 中英

从一组HTML文件中提取表格内容的最佳方法是什么？

[英]What's the best way to extract table content from a group of HTML files?

原文 2008-09-16 01:53:46 1 6 java/ html/ excel/ csv/ extract

使用TIDY清理完整的HTML文件的文件夹后，如何提取表格内容以进行进一步处理？

6 个解决方案

我过去使用过BeautifulSoup这样的东西取得了巨大的成功。

取决于您想要做什么样的处理。 您可以告诉Tidy生成XHTML，这是一种XML，这意味着您可以在结果上使用所有常用的XML工具，如XSLT和XQuery。

如果要在Microsoft Excel中处理它们，那么您应该能够将表格从HTML中分割出来并放入文件中，然后在Excel中打开该文件：它会很乐意将HTML表格转换为电子表格页面。然后，您可以将其保存为CSV或Excel工作簿等。（您甚至可以在Web服务器上使用它 - 返回HTML表，但将Content-Type标头设置为application/ms-vnd.excel ：Excel将打开并且导入表格并将其转入电子表格。）

如果您希望CSV输入到数据库，那么您可以像以前一样通过Excel，或者如果您想自动化该过程，您可以编写一个程序，使用您选择的XML导航API来迭代表行和将它们保存为CSV。 Python的Elementtree和CSV模块可以让这很容易。

在审核了这些建议之后，我结束了使用HtmlUnit 。

使用HtmlUnit，我能够自定义Java代码以打开文件夹中的每个HTML文件，导航到TABLE标记，查询每个列内容并提取创建CSV文件所需的数据。

遍历文本并使用正则表达式:)

http://www.knowledgehouse.sg

在.NET中，您可以使用HTMLAgilityPack 。

有关详细信息，请参阅StackOverflow上的上一个问题。

如果要从HTML标记中提取内容，则应使用某种类型的HTML解析器。 为此目的有很多，这里有两个可能满足您的需求：

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

从博客文章中检测和提取文章内容/评论的最佳方法是什么

[英]What is the best way to detect and extract article content / comments from blog's article

从隐藏 html 元素的网站表格中获取信息的最佳方法是什么？

[英]What is the best way to get information from this website's table where html elements are hidden?

从html页面提取元素的最佳方法？

[英]best way to extract elements from a html page?

每天将1,000个（不同）内容文件上传到GAE Java Web应用程序的最佳方法是什么？

[英]What's the best way to upload 1,000 (different) content files to a GAE Java web app every day?

如何从Java中的BufferedReader对象中提取整个内容的最佳方法是什么？

[英]How is the best way to extract the entire content from a BufferedReader object in Java?

从 Java 中的字符串中提取第一个单词的最佳方法是什么？

[英]What is the best way to extract the first word from a string in Java?

从给定的字符串中提取字符串的一部分的最佳方法是什么？

[英]what is the best way to extract a part of a string from a given string?

从Java中的字符串中提取此int的最佳方法是什么？

[英]What is the best way to extract this int from a string in Java?

从java程序中找出IBMi DB2400表的约束的最佳方法是什么？

[英]What's the best way to find out the constraints on a IBMi DB2400 table from a java program?

JPA-从数据库查找表加载静态数据的最佳实践是什么？

[英]JPA - What's the best practice way to load static data from a Database lookup table?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从博客文章中检测和提取文章内容/评论的最佳方法是什么从隐藏 html 元素的网站表格中获取信息的最佳方法是什么？从html页面提取元素的最佳方法？每天将1,000个（不同）内容文件上传到GAE Java Web应用程序的最佳方法是什么？如何从Java中的BufferedReader对象中提取整个内容的最佳方法是什么？从 Java 中的字符串中提取第一个单词的最佳方法是什么？从给定的字符串中提取字符串的一部分的最佳方法是什么？从Java中的字符串中提取此int的最佳方法是什么？从java程序中找出IBMi DB2400表的约束的最佳方法是什么？ JPA-从数据库查找表加载静态数据的最佳实践是什么？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM