[英]Any good Java HTML parsers?
到目前為止,我一直在使用Cobra,因為它很容易,但是不幸的是,它在一些測試用例中存在一些問題。 有人建議使用經過測試的庫嗎?
我嘗試了Cobra內置的HTMLCleaner並沒有運氣。
看一下Saxon (不,我與該產品沒有任何關系,只是一個滿意的用戶)。
Mozilla HTML Parser看起來很有趣。 根據定義,它應該和Gecko引擎一樣好,它可能滿足您的需求。
[回答標題-總體問題和評論不完整]
JTidy( http://jtidy.sourceforge.net/ )是Dave Raggett的HTMLTidy的端口。 盡管我認為開發速度可能會放緩/停止,但這非常有用。
我建議基於HTML5解析算法的Validator.nu的解析器 。 (Mozilla當前正在用它替換它自己的HTML解析器。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.