使用Tor + Privoxy刮取谷歌購物結果：如何避免阻止？

Question

我在我的服務器上安裝了Tor + Privoxy ，它們工作正常！ （測試）。 但是現在當我嘗試使用urllib2 (python)刮刮谷歌購物結果時，當然使用代理，我總是被谷歌阻止（有時503錯誤，有時403錯誤）。 所以任何人都有任何解決方案可以幫我避免這個問題？ 非常感謝!!

我正在使用的源代碼：

 _HEADERS = {
      'User-Agent': 'Mozilla/5.0',
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Encoding': 'deflate',
      'Connection': 'close',
      'DNT': '1'
  }

  request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)

  proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
  opener = urllib2.build_opener(proxy_support) 
  urllib2.install_opener(opener)

  try:
      response = urllib2.urlopen(request)
      html = response.read()
      print html

   except urllib2.HTTPError as e:
       print e.code
       print e.reason

注意：當我不使用代理時，它可以正常工作！

Answer 1

你安裝了干，Tor的控制器庫嗎？ 只需幾行代碼，您就可以從Tor請求新的身份。 看到：

https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor

只需使用異常來捕獲403和503錯誤，並通過請求新標識來處理它們，如上面的鏈接所示。 祝你好運。

Answer 2

Google阻止了許多退出Tor節點，因為Google收到了很多來自他們的請求。 所以這個錯誤是概率問題，改變你的退出Tor節點，直到找到一個沒有被谷歌阻止。

https://www.torproject.org/docs/faq.html.en#GoogleCAPTCHA

使用Tor + Privoxy刮取谷歌購物結果：如何避免阻止？

問題描述

2 個解決方案

解決方案1
0 2014-01-05 19:37:19

解決方案2
0 2015-01-02 16:08:21

使用Tor + Privoxy刮取谷歌購物結果：如何避免阻止？

問題描述

2 個解決方案

解決方案1 0 2014-01-05 19:37:19

解決方案2 0 2015-01-02 16:08:21

解決方案1
0 2014-01-05 19:37:19

解決方案2
0 2015-01-02 16:08:21