簡體   English   中英

使用Apache Nutch抓取圖像

[英]Crawl Image using Apache Nutch

我安裝了Apache Nutch 2.3.1,Solr 6.5.1和MongoDB 3.4.7。 在搜尋包含許多圖像的URL之后,在Solr和mongoDB中不再包含任何圖像和視頻。 我還更改了Apache堅果中的regex-urlfilter.txt文件,並刪除了與image(.png,.jpeg,.gift,...)相關的后綴。 之后,我更改了suffix-urlfilter.txt文件,並注釋了jpeg,gif,png。
完成后,Apache Nutch不會抓取圖像。 現在我想知道如何爬行圖像並在Solr中看到它? 當我讀到它時,我知道我應該創建插件。我的印象正確嗎?

Nutch 支持多種格式 :純文本,HTML / XHTML + XML,XML,MS Office文件,Adobe PDF,RSS,RTF,MP3。 不幸的是,不支持任何類型的圖像文件。 除此之外,我很好奇,您要在圖像文件中建立索引嗎?

如果我理解您的問題,您要完成的工作是從圖像中提取所有元數據,然后在Solr中僅對此進行索引,對嗎?

如果Nutch甚至沒有獲取您的圖像,則某些URL過濾器很可能會將URL從獲取中排除(檢查日志)。 您需要描述對不同文件的更改,否則將無濟於事。

現在,回到原始問題,如果您只想索引圖像URL(以及元數據),則需要過濾索引到Solr中的內容。 不幸的是,Nutch 2.3沒有(開箱即用)提供此功能。 在Nutch 1.x中,您可以使用mimetype-filter ,它允許您根據URL的mime類型指定要索引到Solr / ES中的內容。 我的建議是使用Nutch 1.x,除非您有充分的理由使用Nutch2.x。 否則,您可以將mimetype-filter插件移植到2.x或編寫支持自己邏輯的自己的IndexingFiler

請記住,您在Solr中獲得的信息僅限於tika可以從圖像文件(元數據)中提取的內容,而通常這些文件通常不是很理想。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM