Google抓取导致API速率限制

Question

目前谷歌抓取已经每秒爬行我的网站大约10次，这导致一些instagrams API - 我正在使用 - 很快达到他们的小时速率限制。

他们是一种阻止谷歌抓取运行一段PHP代码的方式吗？ 我仍然希望他们抓取页面但不会触发api请求。

Answer 1

既然你想要，仍然抓取页面， robots.txt可能不适合你。

一般来说，你问一下，你的API实现是对的吗？ 您应该使用API来获取某些数据或执行某些操作。

你不应该做的是，每个PageView都要求API提供相同的信息。 请改为缓存它。

有时可以将结果简单地缓存到txt文件中，有时您希望将数据爬网到自己的数据库中。

如果这不是您的选择，您可以通过这种方式检测谷歌机器人：

if(strstr(strtolower($_SERVER['HTTP_USER_AGENT']), "googlebot"))
{
    // what to do
}

至少为Googlebot提供缓存版本。

另请注意，这不是Googlebot唯一的问题。 那里有很多机器人。 还有一些糟糕的机器人，它们构成普通用户。 此外，如果您负载很重，这也可能是一个问题。