繁体   English   中英

Google抓取503服务不可用

[英]Google crawl 503 service unavailable

当我在服务器上使用wget,curl或python抓取谷歌搜索引擎时,我遇到了一个非常奇怪的问题。 Google将我重定向到以[ipv4 | ipv6] .google.fr / sorry / IndexRedirect ...开头的地址,最后发送503错误,服务不可用...

有时抓取工作正常,有时不在白天,我几乎尝试了一切:强制ipv4 / ipv6而不是主机名,referer,用户代理,vpn,.com / .fr /,代理和tor,...

我想这是来自Google服务器的错误......任何想法? 谢谢 !

wget "http://google.fr/search?q=test"
--2015-06-03 10:19:52--  http://google.fr/search?q=test
Resolving google.fr (google.fr)... 2a00:1450:400c:c05::5e, 173.194.67.94
Connecting to google.fr (google.fr)|2a00:1450:400c:c05::5e|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0 [following]
--2015-06-03 10:19:53--  http://ipv6.google.com/sorry/IndexRedirect?continue=http://google.fr/search%3Fq%3Dtest&q=CGMSECABQdAAUQABAAAAAAAAH1QYqPG6qwUiGQDxp4NLQuHgP_i-oiUu0ZShPumAZRF3u_0
Resolving ipv6.google.com (ipv6.google.com)... 2a00:1450:400c:c05::64
Connecting to ipv6.google.com (ipv6.google.com)|2a00:1450:400c:c05::64|:80... connected.
HTTP request sent, awaiting response... 503 Service Unavailable
2015-06-03 10:19:53 ERROR 503: Service Unavailable.

谷歌有触发器来嗅出机器人和其他滥用他们的服务条款的行为,因此他们对同一个IP地址在一段时间内可以拨打的电话数量设置了限制(或“限制”)。 我相信这是每分钟10个电话。 一个很好的例子:如果你的Url因为503错误而将其粘贴到浏览器中,那么你将获得Google的Captcha挑战,以证明你不是机器人。

我正在使用pattern.web模块做与你正在做的基本相同的事情(当然是为了无害的研究目的!),该库的文档显示了大多数流行API的限制限制(Google,Bing,Twitter, Facebook的...)。

尝试每隔15秒左右发送一次请求,以避免踩油门限制。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM