繁体   English   中英

任何好的Java HTML解析器?

[英]Any good Java HTML parsers?

到目前为止,我一直在使用Cobra,因为它很容易,但是不幸的是,它在一些测试用例中存在一些问题。 有人建议使用经过测试的库吗?

我尝试了Cobra内置的HTMLCleaner并没有运气。

当处理糟糕的HTML / XHTML时, TagSoup确实很棒。

Jericho (和NekoHTML )也可以很好地解析无效的HTML。

TagSoup和Jericho:久经考验。 NekoHTML:来自可靠来源的反馈。

看一下Saxon (不,我与该产品没有任何关系,只是一个满意的用户)。

Mozilla HTML Parser看起来很有趣。 根据定义,它应该和Gecko引擎一样好,它可能满足您的需求。

[回答标题-总体问题和评论不完整]

JTidy( http://jtidy.sourceforge.net/ )是Dave Raggett的HTMLTidy的端口。 尽管我认为开发速度可能会放缓/停止,但这非常有用。

我建议基于HTML5解析算法的Validator.nu的解析器 (Mozilla当前正在用它替换它自己的HTML解析器。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM