繁体   English   中英

针对特定文件类型爬取 web

[英]Crawling web for specific file type

作为研究的一部分,我需要尽可能多地通过 web 下载免费可用的 RDF(资源描述框架 - *.rdf)文件。 Python 中可用的理想库/框架是什么?

是否有任何网站/搜索引擎能够做到这一点? 我试过谷歌文件类型:RDF 搜索。 最初,Google 会向您显示 6,960,000 个结果。 但是,当您浏览单个结果页面时,结果会急剧下降到 205 个结果。 我写了一个脚本来抓取和下载文件,但是 205 对我的研究来说还不够,我确信 web 中有超过 205 个文件。 所以,我真的需要一个文件爬虫。 我想知道是否有任何在线或离线工具可用于此目的,或者 Python 中的框架/示例脚本可以实现此目的。 非常感谢这方面的任何帮助。

从 Web 抓取 RDF 内容与抓取任何其他内容没有什么不同。 That said, if your question is "what is a good python Web crawler", than you should read this question: Anyone know of a good Python based web crawler that I could use? . 如果您的问题与使用 python 处理 RDF 有关,那么有几个选项,一个是RDFLib

我知道我的这个答案有点晚了 - 但对于未来的搜索者 - http://sindice.com/是 rdf 文档的一个很好的索引

Teleport pro,虽然它可能无法从 google 复制,但它太大了,它可能可以处理返回 google 结果的代理站点,而且我知道,事实上,如果我愿意的话,我可以在一天内下载 10 000 个 pdf。 它有文件类型说明符和许多选项。

这是一种解决方法:

从 chrome 扩展程序或类似程序中获取“下载大师”

在谷歌或其他搜索结果,将谷歌设置为每页 100

select - 显示所有文件

写下你的文件扩展名,.rdf 按回车

按下载

每次点击可以有 100 个文件,还不错。

您是否注意到一页底部的文字“google has hidden similar results, click here to show all results”之类的文字? 可能有帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM