簡體   English   中英

使用Nutch2獲取所有Pdf文件Urls

[英]Get all Pdf file Urls with Nutch2

我將Nutch 2.3.1與MongoDB結合使用來實現持久性。 我的目標是提取文件URL而不下載它們。

現在正在下載文件。 如何禁用下載並僅將URL保留在數據庫中?

如何從Nutch2中提取所有已爬網的URL?

根據您要完成的工作,這可能需要一些修改:

如果您不想從PDF文件中解析/提取文本,則可http.content.limit設置一個較低的值,這將基本上阻止Nutch下載超過您在此處指定的字節的文件,但仍然會能夠發現文件的URL,並會下載一個片段(您指定的字節數)。

當然,這也會影響您要獲取/下載的其余URL。

一種可行的方法是編寫您自己的協議插件,該插件將阻止您下載任何PDF文件。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM