繁体 English 中英

针对特定文件类型爬取 web

[英]Crawling web for specific file type

原文 2011-07-13 15:04:15 9 5 python/ screen-scraping/ web-crawler

作为研究的一部分，我需要尽可能多地通过 web 下载免费可用的 RDF（资源描述框架 - *.rdf）文件。 Python 中可用的理想库/框架是什么？

是否有任何网站/搜索引擎能够做到这一点？ 我试过谷歌文件类型：RDF 搜索。 最初，Google 会向您显示 6,960,000 个结果。 但是，当您浏览单个结果页面时，结果会急剧下降到 205 个结果。 我写了一个脚本来抓取和下载文件，但是 205 对我的研究来说还不够，我确信 web 中有超过 205 个文件。 所以，我真的需要一个文件爬虫。 我想知道是否有任何在线或离线工具可用于此目的，或者 Python 中的框架/示例脚本可以实现此目的。 非常感谢这方面的任何帮助。

5 个解决方案

从 Web 抓取 RDF 内容与抓取任何其他内容没有什么不同。 That said, if your question is "what is a good python Web crawler", than you should read this question: Anyone know of a good Python based web crawler that I could use? . 如果您的问题与使用 python 处理 RDF 有关，那么有几个选项，一个是RDFLib

我知道我的这个答案有点晚了 - 但对于未来的搜索者 - http://sindice.com/是 rdf 文档的一个很好的索引

Teleport pro，虽然它可能无法从 google 复制，但它太大了，它可能可以处理返回 google 结果的代理站点，而且我知道，事实上，如果我愿意的话，我可以在一天内下载 10 000 个 pdf。 它有文件类型说明符和许多选项。

这是一种解决方法：

从 chrome 扩展程序或类似程序中获取“下载大师”

在谷歌或其他搜索结果，将谷歌设置为每页 100

select - 显示所有文件

写下你的文件扩展名，.rdf 按回车

按下载

每次点击可以有 100 个文件，还不错。

您是否注意到一页底部的文字“google has hidden similar results, click here to show all results”之类的文字？ 可能有帮助。

Python Web爬网中没有这样的文件或目录？

[英]No such File or Directory in Python Web Crawling?

Scrapy-选择和搜寻特定类型的站点地图节点

[英]Scrapy - Selecting and crawling a specific type of sitemap nodes

如何在使用“ Beautiful Soup”抓取网页时找到特定的模式？

[英]How to find specific pattern in crawling a web page using “Beautiful Soup”?

搜寻python中任何网页URL文档的特定标题的文本

[英]Crawling text of a specific heading for any web page URL document in python

Web 在带分页的博客中抓取/爬取特定的 URL 详细信息

[英]Web scraping/crawling for specific URL details within a blog with pagination

网页抓取/网页抓取

[英]Web Crawling/Web Scraping

爬行-特定词

[英]Crawling - specific word

网络搜寻链接表

[英]web crawling a table of links

Python-Scrapy爬网

[英]Python - Scrapy crawling the web

使用 BeautifulSoup 进行网页抓取

[英]Web Crawling using BeautifulSoup

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python Web爬网中没有这样的文件或目录？ Scrapy-选择和搜寻特定类型的站点地图节点如何在使用“ Beautiful Soup”抓取网页时找到特定的模式？搜寻python中任何网页URL文档的特定标题的文本 Web 在带分页的博客中抓取/爬取特定的 URL 详细信息网页抓取/网页抓取爬行-特定词网络搜寻链接表 Python-Scrapy爬网使用 BeautifulSoup 进行网页抓取

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM