繁体 English 中英

apache Nutch中是否有任何插件可以对原始内容中的webHtml和pdf进行索引

[英]Is there any Plugin in apache Nutch to index both webHtml and pdfs in raw content

原文 2018-04-23 07:31:02 0 2 java/ solr/ hbase/ nutch

在Apache Nutch中是否有任何插件可以对原始内容的webHtml和pdf进行索引。这样的格式不会丢失。 我们也可以使用nutch抓取html文件中存在的内部pdf链接吗？

2 个解决方案

对于PDF，没有任何现成的东西。 Nutch使用Tika并尝试提取纯文本。 您可以编写自己的插件（例如，使用PDFBox ），然后尝试提取有关文档的格式信息。

请记住，PDF文件的原始内容没有多大意义。 可能您可以尝试将PDF转换为HTML / XML，然后尝试理解其结构。 也许诸如http://pdfx.cs.man.ac.uk/example之类的库对您有意义。 不做一些试验就不可能知道。

关于“内部链接”，您是指同一文档中的链接，还是指向内容PDF内的其他文档/网页的链接？ 如果您指的是PDF中的内部链接，则可能可以根据库进行操作。

请记住，PDF并非易于处理的格式。 Tika / PDFBox项目在简化此任务方面做得非常出色，即使花了很多时间/精力，但仍有一些“问题”边缘文件。 只是一个小警告👍。

确保在您的nutch_site.xml属性中包含名为plugin.includes | parse-（text | html | pdf ）|的属性。

Apache Nutz不再爬网

[英]Apache nutch is not crawling any more

如何创建一个将原始HTML返回到解析器的nutch插件

[英]How to Create a nutch plugin that returns raw html to the parser

Apache Solr不会为扫描的PDF编制索引

[英]Apache Solr does not index scanned PDFs

如何通过一些用例测试Apache Nutch插件

[英]How to test Apache Nutch plugin via some use cases

如何将提取的html内容保存到Apache Nuct中的数据库？

[英]How to save fetched html content to database in apache nutch?

java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException 当用 nutch 解析时

[英]java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException when parsing with nutch

Apache Nutch - 路径问题

[英]Apache Nutch - Problems with Paths

Apache Nutch Hadoop 集成

[英]Apache Nutch Hadoop Integration

如何使用Apache POI从PDF中提取原始文本？

[英]How can I extract raw text from PDFs using Apache POI?

Apache Nutch - NoSuchMethodError

[英]Apache Nutch - NoSuchMethodError

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Nutz不再爬网如何创建一个将原始HTML返回到解析器的nutch插件 Apache Solr不会为扫描的PDF编制索引如何通过一些用例测试Apache Nutch插件如何将提取的html内容保存到Apache Nuct中的数据库？ java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException 当用 nutch 解析时 Apache Nutch - 路径问题 Apache Nutch Hadoop 集成如何使用Apache POI从PDF中提取原始文本？ Apache Nutch - NoSuchMethodError

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM