簡體   English   中英

使用Tor + Privoxy刮取谷歌購物結果:如何避免阻止?

[英]Using Tor + Privoxy to scrape google shopping results: How to avoid block?

我在我的服務器上安裝了Tor + Privoxy ,它們工作正常! (測試)。 但是現在當我嘗試使用urllib2 (python)刮刮谷歌購物結果時,當然使用代理,我總是被谷歌阻止(有時503錯誤,有時403錯誤)。 所以任何人都有任何解決方案可以幫我避免這個問題? 非常感謝!!

我正在使用的源代碼:

 _HEADERS = {
      'User-Agent': 'Mozilla/5.0',
      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
      'Accept-Encoding': 'deflate',
      'Connection': 'close',
      'DNT': '1'
  }

  request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)

  proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
  opener = urllib2.build_opener(proxy_support) 
  urllib2.install_opener(opener)

  try:
      response = urllib2.urlopen(request)
      html = response.read()
      print html

   except urllib2.HTTPError as e:
       print e.code
       print e.reason


注意:當我不使用代理時,它可以正常工作!

你安裝了干,Tor的控制器庫嗎? 只需幾行代碼,您就可以從Tor請求新的身份。 看到:

https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor

只需使用異常來捕獲403和503錯誤,並通過請求新標識來處理它們,如上面的鏈接所示。 祝你好運。

Google阻止了許多退出Tor節點,因為Google收到了很多來自他們的請求。 所以這個錯誤是概率問題,改變你的退出Tor節點,直到找到一個沒有被谷歌阻止。

https://www.torproject.org/docs/faq.html.en#GoogleCAPTCHA

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM