簡體   English   中英

錯誤403 web刮python美湯

[英]Error 403 web scraping python beautiful soup

'''

import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
r = requests.get(url_,headers=headers)

''' 我正在嘗試抓取這個網站“https://allegro.pl/uzytkownik/feni44/lampy-przednie-i-elementy-swiatla-do-jazdy-dziennej-drl-255102?bmatch=cl-e2101-d3793 -c3792-fd-60-aut-1-3-0412" 直到昨天一切正常,但突然出現 403 錯誤。 我使用了代理/VPN,但錯誤仍然存在。

抓取網站時,必須注意網站的反 DDOS 保護策略。 DDOS 的一種形式是通過刷新一次提交多個負載請求,這會增加服務器的負載並降低其性能。 Using a web scraper does exactly that as it goes through each link, and so the website can mistake your bot as a DDOS'er and block it's IP address, making it FORBIDDEN (error 403) to access the website from it's IP address.

通常這只是暫時的,所以在 12 小時或 24 小時后(或者網站設置的封鎖期有多長)它應該對 go 很好。 如果您不想避免將來出現 403 FORBIDDEN 錯誤,請考慮在每個請求之間休眠 10 秒。

嘗試使用一些代理服務,例如Bright proxy 他們擁有超過 7200 萬個代理。 我認為這個問題將在輪換代理和用戶代理時得到解決。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM