簡體 English 中英

apache Nutch中是否有任何插件可以對原始內容中的webHtml和pdf進行索引

[英]Is there any Plugin in apache Nutch to index both webHtml and pdfs in raw content

原文 2018-04-23 07:31:02 4 2 java/ solr/ hbase/ nutch

在Apache Nutch中是否有任何插件可以對原始內容的webHtml和pdf進行索引。這樣的格式不會丟失。 我們也可以使用nutch抓取html文件中存在的內部pdf鏈接嗎？

2 個解決方案

對於PDF，沒有任何現成的東西。 Nutch使用Tika並嘗試提取純文本。 您可以編寫自己的插件（例如，使用PDFBox ），然后嘗試提取有關文檔的格式信息。

請記住，PDF文件的原始內容沒有多大意義。 可能您可以嘗試將PDF轉換為HTML / XML，然后嘗試理解其結構。 也許諸如http://pdfx.cs.man.ac.uk/example之類的庫對您有意義。 不做一些試驗就不可能知道。

關於“內部鏈接”，您是指同一文檔中的鏈接，還是指向內容PDF內的其他文檔/網頁的鏈接？ 如果您指的是PDF中的內部鏈接，則可能可以根據庫進行操作。

請記住，PDF並非易於處理的格式。 Tika / PDFBox項目在簡化此任務方面做得非常出色，即使花了很多時間/精力，但仍有一些“問題”邊緣文件。 只是一個小警告👍。

確保在您的nutch_site.xml屬性中包含名為plugin.includes | parse-（text | html | pdf ）|的屬性。

Apache Nutz不再爬網

[英]Apache nutch is not crawling any more

如何創建一個將原始HTML返回到解析器的nutch插件

[英]How to Create a nutch plugin that returns raw html to the parser

Apache Solr不會為掃描的PDF編制索引

[英]Apache Solr does not index scanned PDFs

如何通過一些用例測試Apache Nutch插件

[英]How to test Apache Nutch plugin via some use cases

如何將提取的html內容保存到Apache Nuct中的數據庫？

[英]How to save fetched html content to database in apache nutch?

java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException 當用 nutch 解析時

[英]java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException when parsing with nutch

Apache Nutch - 路徑問題

[英]Apache Nutch - Problems with Paths

Apache Nutch Hadoop 集成

[英]Apache Nutch Hadoop Integration

如何使用Apache POI從PDF中提取原始文本？

[英]How can I extract raw text from PDFs using Apache POI?

Apache Nutch - NoSuchMethodError

[英]Apache Nutch - NoSuchMethodError

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Apache Nutz不再爬網如何創建一個將原始HTML返回到解析器的nutch插件 Apache Solr不會為掃描的PDF編制索引如何通過一些用例測試Apache Nutch插件如何將提取的html內容保存到Apache Nuct中的數據庫？ java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException 當用 nutch 解析時 Apache Nutch - 路徑問題 Apache Nutch Hadoop 集成如何使用Apache POI從PDF中提取原始文本？ Apache Nutch - NoSuchMethodError

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM