簡體 English 中英

使用Java HTML解析器提取文本

[英]Text extraction with java html parsers

原文 2010-04-09 18:37:38 8 3 java/ html/ text/ parsing/ extraction

我想使用一個HTML解析器，以一種優美，優雅的方式執行以下操作

提取文字（這很重要）
提取鏈接，元關鍵字
重建原始文檔（可選，但功能不錯）

根據我的調查，到目前為止，墨西哥煎蛋餅似乎很合適。 你們會推薦其他開源庫嗎？

3 個解決方案

我最近嘗試了HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一個DOM / SAX解析器，可產生可預測的結果。 HtmlCleaner快一點，但通常無法產生准確的結果。

我會推薦CyberNekoHtml。 CyberNekoHtml可以完成您提到的所有事情。 例如，提取所有元素及其屬性的列表非常容易。 如果您要重建頁面，則可以遍歷將每個元素重新構建為HTML的DOM樹。

這里有一個開源的Java html解析器列表： http : //java-source.net/open-source/html-parsers

我肯定會去JSoup。

非常優雅的圖書館，可滿足您的需求。

在這里查看示例

我最終使用HtmlCleaner http://htmlcleaner.sourceforge.net/進行了類似的操作。 它真的很容易使用，並且可以快速滿足我的需求。

從HTML Java中提取文本

[英]Text Extraction from HTML Java

任何好的Java HTML解析器？

[英]Any good Java HTML parsers?

開源Java文本解析器

[英]Open Source Java Text Parsers

Java中的PDF文本提取

[英]PDF text extraction in Java

Java - PDFBox - 文本提取

[英]Java - PDFBox - Text Extraction

是否有任何Java HTML解析器，其中生成的節點保留原始文本的索引？

[英]Are there any Java HTML parsers where the generated Nodes retain indexes to the original text?

使用Java提取HTML標簽

[英]Extraction of HTML Tags using Java

使用Java從HTML提取文本，包括源行號和代碼

[英]Text Extraction from HTML using Java including source line number and code

j2me中的Html文本提取

[英]Html Text Extraction in j2me

使用Java從圖像中提取文本

[英]Text Extraction from an Image Using java

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 從HTML Java中提取文本任何好的Java HTML解析器？開源Java文本解析器 Java中的PDF文本提取 Java - PDFBox - 文本提取是否有任何Java HTML解析器，其中生成的節點保留原始文本的索引？使用Java提取HTML標簽使用Java從HTML提取文本，包括源行號和代碼 j2me中的Html文本提取使用Java從圖像中提取文本

相關標簽

使用Java HTML解析器提取文本

問題描述

3 個解決方案

解決方案1
2 已采納 2010-04-09 19:17:37

解決方案2
1 2017-02-08 16:08:34

解決方案3
0 2010-04-09 18:48:26

使用Java HTML解析器提取文本

問題描述

3 個解決方案

解決方案1 2 已采納 2010-04-09 19:17:37

解決方案2 1 2017-02-08 16:08:34

解決方案3 0 2010-04-09 18:48:26

解決方案1
2 已采納 2010-04-09 19:17:37

解決方案2
1 2017-02-08 16:08:34

解決方案3
0 2010-04-09 18:48:26