簡體   English   中英

如何在Nutch 2.3中抓取圖像作為HBase作為后端?

[英]How to crawl images in Nutch 2.3 as HBase as backend?

我想從某些站點抓取圖像。 到目前為止,我嘗試修改regex-urlfilter.txt。

我變了:

 -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
 T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

至:

-\.(css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|t
gz|TGZ|mov|MOV|exe|EXE|js|JS)$

但這沒有用。 令我感到驚訝的是,我沒有找到有關使用Nutch 2.3抓取圖像的任何文檔。 引用任何現有文檔確實是一個很大的幫助。

為了使用Nutch提取和存儲圖像,您必須遵循以下步驟:

1-添加正則表達式以不過濾圖像格式,例如jpg,jpeg,tif,gif,png等(您已經做過)

2-實現用於解析圖像的解析插件。 有關Nutch擴展點和編寫所需插件的更多信息,請遵循以下鏈接:

http://wiki.apache.org/nutch/AboutPlugins

http://wiki.apache.org/nutch/WritingPluginExample

3-告訴Nutch有關已實現的插件並將其用於圖像文件格式的信息:

為此,您必須遵循兩個不同的步驟,首先,修改conf / parse-plugins.xml並將實現的插件映射為圖像文件格式:

<mimeType name="image/jpeg">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
        <plugin id="parse-image" />
</mimeType>

其次,將已實現的插件添加到nutch-site.xml ,以在Nutch運行時中運行。 您必須將實現的插件添加到<plugin.includes>屬性。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM