簡體   English   中英

任何好的Java HTML解析器?

[英]Any good Java HTML parsers?

到目前為止,我一直在使用Cobra,因為它很容易,但是不幸的是,它在一些測試用例中存在一些問題。 有人建議使用經過測試的庫嗎?

我嘗試了Cobra內置的HTMLCleaner並沒有運氣。

當處理糟糕的HTML / XHTML時, TagSoup確實很棒。

Jericho (和NekoHTML )也可以很好地解析無效的HTML。

TagSoup和Jericho:久經考驗。 NekoHTML:來自可靠來源的反饋。

看一下Saxon (不,我與該產品沒有任何關系,只是一個滿意的用戶)。

Mozilla HTML Parser看起來很有趣。 根據定義,它應該和Gecko引擎一樣好,它可能滿足您的需求。

[回答標題-總體問題和評論不完整]

JTidy( http://jtidy.sourceforge.net/ )是Dave Raggett的HTMLTidy的端口。 盡管我認為開發速度可能會放緩/停止,但這非常有用。

我建議基於HTML5解析算法的Validator.nu的解析器 (Mozilla當前正在用它替換它自己的HTML解析器。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM