繁体 English 中英

使用Java HTML解析器提取文本

[英]Text extraction with java html parsers

原文 2010-04-09 18:37:38 3 3 java/ html/ text/ parsing/ extraction

我想使用一个HTML解析器，以一种优美，优雅的方式执行以下操作

提取文字（这很重要）
提取链接，元关键字
重建原始文档（可选，但功能不错）

根据我的调查，到目前为止，墨西哥煎蛋饼似乎很合适。 你们会推荐其他开源库吗？

3 个解决方案

我最近尝试了HtmlCleaner和CyberNekoHtml。 CyberNekoHtml是一个DOM / SAX解析器，可产生可预测的结果。 HtmlCleaner快一点，但通常无法产生准确的结果。

我会推荐CyberNekoHtml。 CyberNekoHtml可以完成您提到的所有事情。 例如，提取所有元素及其属性的列表非常容易。 如果您要重建页面，则可以遍历将每个元素重新构建为HTML的DOM树。

这里有一个开源的Java html解析器列表： http : //java-source.net/open-source/html-parsers

我肯定会去JSoup。

非常优雅的图书馆，可满足您的需求。

在这里查看示例

我最终使用HtmlCleaner http://htmlcleaner.sourceforge.net/进行了类似的操作。 它真的很容易使用，并且可以快速满足我的需求。

从HTML Java中提取文本

[英]Text Extraction from HTML Java

任何好的Java HTML解析器？

[英]Any good Java HTML parsers?

开源Java文本解析器

[英]Open Source Java Text Parsers

Java中的PDF文本提取

[英]PDF text extraction in Java

Java - PDFBox - 文本提取

[英]Java - PDFBox - Text Extraction

是否有任何Java HTML解析器，其中生成的节点保留原始文本的索引？

[英]Are there any Java HTML parsers where the generated Nodes retain indexes to the original text?

使用Java提取HTML标签

[英]Extraction of HTML Tags using Java

使用Java从HTML提取文本，包括源行号和代码

[英]Text Extraction from HTML using Java including source line number and code

j2me中的Html文本提取

[英]Html Text Extraction in j2me

使用Java从图像中提取文本

[英]Text Extraction from an Image Using java

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 从HTML Java中提取文本任何好的Java HTML解析器？开源Java文本解析器 Java中的PDF文本提取 Java - PDFBox - 文本提取是否有任何Java HTML解析器，其中生成的节点保留原始文本的索引？使用Java提取HTML标签使用Java从HTML提取文本，包括源行号和代码 j2me中的Html文本提取使用Java从图像中提取文本

相关标签

使用Java HTML解析器提取文本

问题描述

3 个解决方案

解决方案1
2 已采纳 2010-04-09 19:17:37

解决方案2
1 2017-02-08 16:08:34

解决方案3
0 2010-04-09 18:48:26

使用Java HTML解析器提取文本

问题描述

3 个解决方案

解决方案1 2 已采纳 2010-04-09 19:17:37

解决方案2 1 2017-02-08 16:08:34

解决方案3 0 2010-04-09 18:48:26

解决方案1
2 已采纳 2010-04-09 19:17:37

解决方案2
1 2017-02-08 16:08:34

解决方案3
0 2010-04-09 18:48:26