[英]How to get HTTPS content using Python Requests through TOR and Privoxy
[英]Using Tor + Privoxy to scrape google shopping results: How to avoid block?
我在我的服務器上安裝了Tor + Privoxy
,它們工作正常! (測試)。 但是現在當我嘗試使用urllib2 (python)
刮刮谷歌購物結果時,當然使用代理,我總是被谷歌阻止(有時503錯誤,有時403錯誤)。 所以任何人都有任何解決方案可以幫我避免這個問題? 非常感謝!!
我正在使用的源代碼:
_HEADERS = {
'User-Agent': 'Mozilla/5.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'close',
'DNT': '1'
}
request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)
proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(request)
html = response.read()
print html
except urllib2.HTTPError as e:
print e.code
print e.reason
注意:當我不使用代理時,它可以正常工作!
你安裝了干,Tor的控制器庫嗎? 只需幾行代碼,您就可以從Tor請求新的身份。 看到:
https://stem.torproject.org/faq.html#how-do-i-request-a-new-identity-from-tor
只需使用異常來捕獲403和503錯誤,並通過請求新標識來處理它們,如上面的鏈接所示。 祝你好運。
Google阻止了許多退出Tor節點,因為Google收到了很多來自他們的請求。 所以這個錯誤是概率問題,改變你的退出Tor節點,直到找到一個沒有被谷歌阻止。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.