[英]Any good Java HTML parsers?
到目前为止,我一直在使用Cobra,因为它很容易,但是不幸的是,它在一些测试用例中存在一些问题。 有人建议使用经过测试的库吗?
我尝试了Cobra内置的HTMLCleaner并没有运气。
看一下Saxon (不,我与该产品没有任何关系,只是一个满意的用户)。
Mozilla HTML Parser看起来很有趣。 根据定义,它应该和Gecko引擎一样好,它可能满足您的需求。
[回答标题-总体问题和评论不完整]
JTidy( http://jtidy.sourceforge.net/ )是Dave Raggett的HTMLTidy的端口。 尽管我认为开发速度可能会放缓/停止,但这非常有用。
我建议基于HTML5解析算法的Validator.nu的解析器 。 (Mozilla当前正在用它替换它自己的HTML解析器。)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.