簡體   English   中英

如何在Nut 2.1中抓取頁面但不獲取視頻/圖像內容?

[英]How can i crawl page but without fetching video/image content in nutch 2.1?

我想抓取頁面,我只需要采用HTML本身,避免使用所有圖像/視頻等...可以這樣做嗎? 提前致謝。

檢查regex-urlfilter.txt文件。

您可以包括不想索引的文件擴展名的擴展名。 例如

# skip image and other suffixes we can't yet parse
# for a more extensive coverage use the urlfilter-suffix plugin
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PPT|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM