簡體   English   中英

apache Nutch中是否有任何插件可以對原始內容中的webHtml和pdf進行索引

[英]Is there any Plugin in apache Nutch to index both webHtml and pdfs in raw content

在Apache Nutch中是否有任何插件可以對原始內容的webHtml和pdf進行索引。這樣的格式不會丟失。 我們也可以使用nutch抓取html文件中存在的內部pdf鏈接嗎?

對於PDF,沒有任何現成的東西。 Nutch使用Tika並嘗試提取純文本。 您可以編寫自己的插件(例如,使用PDFBox ),然后嘗試提取有關文檔的格式信息。

請記住,PDF文件的原始內容沒有多大意義。 可能您可以嘗試將PDF轉換為HTML / XML,然后嘗試理解其結構。 也許諸如http://pdfx.cs.man.ac.uk/example之類的庫對您有意義。 不做一些試驗就不可能知道。

關於“內部鏈接”,您是指同一文檔中的鏈接,還是指向內容PDF內的其他文檔/網頁的鏈接? 如果您指的是PDF中的內部鏈接,則可能可以根據庫進行操作。

請記住,PDF並非易於處理的格式。 Tika / PDFBox項目在簡化此任務方面做得非常出色,即使花了很多時間/精力,但仍有一些“問題”邊緣文件。 只是一個小警告👍。

確保在您的nutch_site.xml屬性中包含名為plugin.includes | parse-(text | html | pdf )|的屬性。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM