[英]Is there any Plugin in apache Nutch to index both webHtml and pdfs in raw content
在Apache Nutch中是否有任何插件可以對原始內容的webHtml和pdf進行索引。這樣的格式不會丟失。 我們也可以使用nutch抓取html文件中存在的內部pdf鏈接嗎?
對於PDF,沒有任何現成的東西。 Nutch使用Tika並嘗試提取純文本。 您可以編寫自己的插件(例如,使用PDFBox ),然后嘗試提取有關文檔的格式信息。
請記住,PDF文件的原始內容沒有多大意義。 可能您可以嘗試將PDF轉換為HTML / XML,然后嘗試理解其結構。 也許諸如http://pdfx.cs.man.ac.uk/example之類的庫對您有意義。 不做一些試驗就不可能知道。
關於“內部鏈接”,您是指同一文檔中的鏈接,還是指向內容PDF內的其他文檔/網頁的鏈接? 如果您指的是PDF中的內部鏈接,則可能可以根據庫進行操作。
請記住,PDF並非易於處理的格式。 Tika / PDFBox項目在簡化此任務方面做得非常出色,即使花了很多時間/精力,但仍有一些“問題”邊緣文件。 只是一個小警告👍。
確保在您的nutch_site.xml屬性中包含名為plugin.includes | parse-(text | html | pdf )|的屬性。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.