如何限制非谷歌搜索引擎机器人抓取率，以便他们不会超过外部API请求限制？

Question

我正在为客户建立一个亚马逊联盟网站，该网站使用Amazon Product API从其目录中获取数据。

亚马逊每秒有1个请求限制。

Google允许通过其网站管理员工具配置googlebot的抓取速度，因此它们没有任何问题。

我需要有关如何处理其他搜索引擎抓取机器人的建议。 什么是避免因机器人爬行而超过亚马逊API速率限制的好方法？

Answer 1

我会使用robots.txt文件，因为它非常简单并节省时间。 通常，所有机器人都尊重并遵守此文件中的规则。 使用以下规则创建名为robots.txt （type：text / plain）的文件

User-agent: * 
Disallow: /path/to/dir/

星号*是表示每个用户代理的通配符。

Disallow: /path/to/dir/

Disallow规则定义了您希望机器人不要抓取的路径。 您可以为不同的用户代理使用多行。

User-agent: Googlebot
Disallow: /path1/

User-agent: Facebookhit
Disallow: /path2/

上面将允许访问/path2/到Googlebot但不允许访问Facebookhit ，反之亦然。 你可以在这里阅读更多