[英]Text extraction with java html parsers
我想使用一個HTML解析器,以一種優美,優雅的方式執行以下操作
根據我的調查,到目前為止, 墨西哥煎蛋餅似乎很合適。 你們會推薦其他開源庫嗎?
我最近嘗試了HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一個DOM / SAX解析器,可產生可預測的結果。 HtmlCleaner快一點,但通常無法產生准確的結果。
我會推薦CyberNekoHtml。 CyberNekoHtml可以完成您提到的所有事情。 例如,提取所有元素及其屬性的列表非常容易。 如果您要重建頁面,則可以遍歷將每個元素重新構建為HTML的DOM樹。
這里有一個開源的Java html解析器列表: http : //java-source.net/open-source/html-parsers
我最終使用HtmlCleaner http://htmlcleaner.sourceforge.net/進行了類似的操作。 它真的很容易使用,並且可以快速滿足我的需求。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.