簡體 English 中英

使用Apache Nutch抓取圖像

[英]Crawl Image using Apache Nutch

原文 2017-12-03 11:02:26 4 2 mongodb/ apache/ solr/ web-crawler/ nutch

我安裝了Apache Nutch 2.3.1，Solr 6.5.1和MongoDB 3.4.7。 在搜尋包含許多圖像的URL之后，在Solr和mongoDB中不再包含任何圖像和視頻。 我還更改了Apache堅果中的regex-urlfilter.txt文件，並刪除了與image（.png，.jpeg，.gift，...）相關的后綴。 之后，我更改了suffix-urlfilter.txt文件，並注釋了jpeg，gif，png。
完成后，Apache Nutch不會抓取圖像。 現在我想知道如何爬行圖像並在Solr中看到它？ 當我讀到它時，我知道我應該創建插件。我的印象正確嗎？

2 個解決方案

Nutch 支持多種格式：純文本，HTML / XHTML + XML，XML，MS Office文件，Adobe PDF，RSS，RTF，MP3。 不幸的是，不支持任何類型的圖像文件。 除此之外，我很好奇，您要在圖像文件中建立索引嗎？

如果我理解您的問題，您要完成的工作是從圖像中提取所有元數據，然后在Solr中僅對此進行索引，對嗎？

如果Nutch甚至沒有獲取您的圖像，則某些URL過濾器很可能會將URL從獲取中排除（檢查日志）。 您需要描述對不同文件的更改，否則將無濟於事。

現在，回到原始問題，如果您只想索引圖像URL（以及元數據），則需要過濾索引到Solr中的內容。 不幸的是，Nutch 2.3沒有（開箱即用）提供此功能。 在Nutch 1.x中，您可以使用mimetype-filter ，它允許您根據URL的mime類型指定要索引到Solr / ES中的內容。 我的建議是使用Nutch 1.x，除非您有充分的理由使用Nutch2.x。 否則，您可以將mimetype-filter插件移植到2.x或編寫支持自己邏輯的自己的IndexingFiler 。