[英]How to limit non-google search engine bots crawl rate so they don't push me over an external API request limit?
[英]Google Crawl Causing API rate limit
目前谷歌抓取已经每秒爬行我的网站大约10次,这导致一些instagrams API - 我正在使用 - 很快达到他们的小时速率限制。
他们是一种阻止谷歌抓取运行一段PHP代码的方式吗? 我仍然希望他们抓取页面但不会触发api请求。
既然你想要,仍然抓取页面, robots.txt
可能不适合你。
一般来说,你问一下,你的API实现是对的吗? 您应该使用API来获取某些数据或执行某些操作。
你不应该做的是,每个PageView都要求API提供相同的信息。 请改为缓存它。
有时可以将结果简单地缓存到txt文件中,有时您希望将数据爬网到自己的数据库中。
if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
// what to do
}
至少为Googlebot提供缓存版本。
另请注意,这不是Googlebot唯一的问题。 那里有很多机器人。 还有一些糟糕的机器人,它们构成普通用户。 此外,如果您负载很重,这也可能是一个问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.