这是与我的问题最接近的问题,但我并没有很好地回答:

网页抓取礼仪

我正在寻找#1的答案:

你应该做多少请求/秒来抓取?

现在我从链接队列中提取。 每个被抓取的站点都有自己的线程,并在请求之间休眠 1 秒。 我要求 gzip 压缩以节省带宽。

有这方面的标准吗? 当然,所有大型搜索引擎在这方面都有一些他们遵循的指导方针。

#1楼 票数:9

维基百科关于网络爬行的文章有一些关于其他人正在做什么的信息:

Cho[22] 使用 10 秒作为访问间隔,而 WIRE 爬虫 [28] 使用 15 秒作为默认值。 MercatorWeb 爬虫遵循自适应礼貌策略:如果从给定服务器下载文档需要 t 秒,则爬虫会在下载下一页之前等待 10t 秒。 [29] 迪尔等人。 [30]使用1秒。

我通常会随机尝试 5 秒,所以它看起来不那么可疑。

#2楼 票数:4

对此没有固定标准,这取决于网络抓取导致的负载量。 只要您没有明显影响其他用户的站点速度,它就应该是可以接受的抓取速度。

由于网站上的用户数量和负载不断波动,因此动态调整抓取速度是个好主意。

监控下载每个页面的延迟,如果延迟开始增加,请开始降低您的抓取速度。 本质上,网站的负载/延迟应该与您的抓取速度成反比。

#3楼 票数:1

当我的客户/老板要求我做这样的事情时,我通常会先寻找公共 API,然后再求助于抓取公共网站。 同时联系网站所有者或技术联系人并获得许可,将“停止和停止”信件保持在最低限度。

  ask by eyberg translate from so

未解决问题?本站智能推荐:

2回复

从网站上抓取数据的最佳方法是什么?[关闭]

我需要从网站中提取内容,但应用程序不提供任何应用程序编程接口或其他机制来以编程方式访问该数据。 我发现了一个名为Import.io的有用的第三方工具,它提供了用于抓取网页和构建数据集的单击和执行功能,唯一的一件事就是我想在本地保存我的数据,而且我不想订阅任何订阅计划。 该公司使用什么样的
2回复

从网站(在php中)抓取数据的最有效方法是什么?

我试图从IMDB抓取数据,但是自然会有很多页面,并且以串行方式完成它花费的时间太长。 即使我使用多线程CURL。 有更快的方法吗? 是的,我知道IMDb提供文本文件,但它们不以任何理智的方式提供所有内容。
3回复

网站抓取库的最佳Perl或Python起点是什么?[重复]

可能重复: 如何使用Perl屏幕抓取? 使用Python进行网页抓取 这不是我的工作领域,所以请原谅普遍缺乏知识。 我正在寻找用于站点抓取的Python或Perl库(从站点/各个页面上的表中获取一些产品信息/以一种更加用户友好的格式-Excel-两种语言都有令人满意的选择)以及良
4回复

网站抓取问题网站

我正在尝试从网站上抓取一些信息,但是在阅读相关页面时遇到了麻烦。 这些页面似乎首先发送基本设置,然后发送更详细的信息。 我的下载尝试似乎只捕获了基本设置。 到目前为止,我已经尝试过urllib并进行机械化。 Firefox和Chrome浏览器显示页面没有问题,尽管在查看页面源代码时看不
2回复

从网站抓取/解析

我正在按照本教程进行操作: https : //www.youtube.com/watch?v=CMyoQbBq5IE&list=PLQVvvaa0QuDfRO5bQFLcVgvIOIhNUZPZf&feature=share并且其中一行存在问题。 使用方法: 从这个网站
3回复

用无限滚动抓取网站

我写了很多刮刀但是我不确定如何处理无限滚动条。 这些天大多数网站等,Facebook,Pinterest都有无限的滚动条。
1回复

Php从网站抓取数据

我对编程非常陌生,需要一些帮助来从网站获取数据并将其传递到我的 PHP 脚本中。 该网站是http://www.birthdatabase.com/ 。 我想插入一个名字(名字和姓氏)并检索结果。 我知道您可以通过在 URL 中传递名称来查询站点,但是我在抓取结果时遇到了问题。 http://ww
1回复

如何使用GoogleSpreadsheet抓取网站?

我有这个网站https://gpfo.memberclicks.net//index.php?option=com_community&view=profile&userid=23705974 ,我正在尝试提取“完整个人资料”下“视图”后面的href链接。 我想知道如何抓取。