簡體   English   中英

使用Java HTML解析器提取文本

[英]Text extraction with java html parsers

我想使用一個HTML解析器,以一種優美,優雅的方式執行以下操作

  1. 提取文字(這很重要)
  2. 提取鏈接,元關鍵字
  3. 重建原始文檔(可選,但功能不錯)

根據我的調查,到目前為止, 墨西哥煎蛋餅似乎很合適。 你們會推薦其他開源庫嗎?

我最近嘗試了HtmlCleaner和Cyber​​NekoHtml。 Cyber​​NekoHtml是一個DOM / SAX解析器,可產生可預測的結果。 HtmlCleaner快一點,但通常無法產生准確的結果。

我會推薦Cyber​​NekoHtml。 Cyber​​NekoHtml可以完成您提到的所有事情。 例如,提取所有元素及其屬性的列表非常容易。 如果您要重建頁面,則可以遍歷將每個元素重新構建為HTML的DOM樹。

這里有一個開源的Java html解析器列表: http : //java-source.net/open-source/html-parsers

我肯定會去JSoup。

非常優雅的圖書館,可滿足您的需求。

在這里查看示例

我最終使用HtmlCleaner http://htmlcleaner.sourceforge.net/進行了類似的操作。 它真的很容易使用,並且可以快速滿足我的需求。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM