繁体   English   中英

使用 Python 请求进行 Webscraping,即使在更新标头后也被拒绝访问

[英]Webscraping with Python Requests and getting Access Denied even after updating headers

这个 webscraper 工作了一段时间,但网站必须已经更新,所以它不再工作了。 每次请求后,我都会收到拒绝访问错误,我尝试添加标头,但仍然遇到同样的问题。 这是代码打印的内容:

</html>

<html><head>
<title>Access Denied</title>
</head><body>
<h1>Access Denied</h1>

You don't have permission to access "http://www.jdsports.co.uk/product/white-nike-air-force-1-shadow-womens/15984107/" on this server.<p>
Reference #18.4d4c1002.1616968601.6e2013c
</p></body>
</html>

下面是获取 HTML 的部分代码:

scraper=requests.Session()

headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
}
            
html = scraper.get(info[0], proxies= proxy_test, headers=headers).text
soup = BeautifulSoup(html, 'html.parser')

print(soup)
stock = soup.findAll("button", {"class": "btn btn-default"})

我还能尝试解决什么问题? 我要抓取的网站是https://www.jdsports.co.uk/

不确定你在哪里,但在美国,你的代码对我有用。 我只需要使用不同的产品,因为上面列出的 url 不存在。 我能够看到按钮列表。 也不需要标题。

url = 'https://www.jdsports.co.uk/product/black-nike-air-force-1-react-lv8-all-stars/16080098/'
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
soup.findAll("button", {"class": "btn btn-default"})

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM