繁体   English   中英

使用Java HTML解析器提取文本

[英]Text extraction with java html parsers

我想使用一个HTML解析器,以一种优美,优雅的方式执行以下操作

  1. 提取文字(这很重要)
  2. 提取链接,元关键字
  3. 重建原始文档(可选,但功能不错)

根据我的调查,到目前为止, 墨西哥煎蛋饼似乎很合适。 你们会推荐其他开源库吗?

我最近尝试了HtmlCleaner和Cyber​​NekoHtml。 Cyber​​NekoHtml是一个DOM / SAX解析器,可产生可预测的结果。 HtmlCleaner快一点,但通常无法产生准确的结果。

我会推荐Cyber​​NekoHtml。 Cyber​​NekoHtml可以完成您提到的所有事情。 例如,提取所有元素及其属性的列表非常容易。 如果您要重建页面,则可以遍历将每个元素重新构建为HTML的DOM树。

这里有一个开源的Java html解析器列表: http : //java-source.net/open-source/html-parsers

我肯定会去JSoup。

非常优雅的图书馆,可满足您的需求。

在这里查看示例

我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/进行了类似的操作。 它真的很容易使用,并且可以快速满足我的需求。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM