[英]Get all Pdf file Urls with Nutch2
我将Nutch 2.3.1与MongoDB结合使用来实现持久性。 我的目标是提取文件URL而不下载它们。
现在正在下载文件。 如何禁用下载并仅将URL保留在数据库中?
如何从Nutch2中提取所有已爬网的URL?
根据您要完成的工作,这可能需要一些修改:
如果您不想从PDF文件中解析/提取文本,则可http.content.limit
设置一个较低的值,这将基本上阻止Nutch下载超过您在此处指定的字节的文件,但仍然会能够发现文件的URL,并会下载一个片段(您指定的字节数)。
当然,这也会影响您要获取/下载的其余URL。
一种可行的方法是编写您自己的协议插件,该插件将阻止您下载任何PDF文件。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.