[英]Text extraction with java html parsers
我想使用一个HTML解析器,以一种优美,优雅的方式执行以下操作
根据我的调查,到目前为止, 墨西哥煎蛋饼似乎很合适。 你们会推荐其他开源库吗?
我最近尝试了HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一个DOM / SAX解析器,可产生可预测的结果。 HtmlCleaner快一点,但通常无法产生准确的结果。
我会推荐CyberNekoHtml。 CyberNekoHtml可以完成您提到的所有事情。 例如,提取所有元素及其属性的列表非常容易。 如果您要重建页面,则可以遍历将每个元素重新构建为HTML的DOM树。
这里有一个开源的Java html解析器列表: http : //java-source.net/open-source/html-parsers
我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/进行了类似的操作。 它真的很容易使用,并且可以快速满足我的需求。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.