[英]How to limit non-google search engine bots crawl rate so they don't push me over an external API request limit?
我正在为客户建立一个亚马逊联盟网站,该网站使用Amazon Product API从其目录中获取数据。
亚马逊每秒有1个请求限制。
Google允许通过其网站管理员工具配置googlebot的抓取速度,因此它们没有任何问题。
我需要有关如何处理其他搜索引擎抓取机器人的建议。 什么是避免因机器人爬行而超过亚马逊API速率限制的好方法?
如果你想遵循PHP方法,请按照我的回答使用og metatag的php重定向网址(打开图表)
我会使用robots.txt文件,因为它非常简单并节省时间。 通常,所有机器人都尊重并遵守此文件中的规则。 使用以下规则创建名为robots.txt
(type:text / plain)的文件
User-agent: *
Disallow: /path/to/dir/
星号*
是表示每个用户代理的通配符。
Disallow: /path/to/dir/
Disallow
规则定义了您希望机器人不要抓取的路径。 您可以为不同的用户代理使用多行。
User-agent: Googlebot
Disallow: /path1/
User-agent: Facebookhit
Disallow: /path2/
上面将允许访问/path2/
到Googlebot
但不允许访问Facebookhit
,反之亦然。 你可以在这里阅读更多
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.