繁体   English   中英

使用Nutch2获取所有Pdf文件Urls

[英]Get all Pdf file Urls with Nutch2

我将Nutch 2.3.1与MongoDB结合使用来实现持久性。 我的目标是提取文件URL而不下载它们。

现在正在下载文件。 如何禁用下载并仅将URL保留在数据库中?

如何从Nutch2中提取所有已爬网的URL?

根据您要完成的工作,这可能需要一些修改:

如果您不想从PDF文件中解析/提取文本,则可http.content.limit设置一个较低的值,这将基本上阻止Nutch下载超过您在此处指定的字节的文件,但仍然会能够发现文件的URL,并会下载一个片段(您指定的字节数)。

当然,这也会影响您要获取/下载的其余URL。

一种可行的方法是编写您自己的协议插件,该插件将阻止您下载任何PDF文件。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM