使用 Python 请求进行 Webscraping，即使在更新标头后也被拒绝访问

Question

这个 webscraper 工作了一段时间，但网站必须已经更新，所以它不再工作了。 每次请求后，我都会收到拒绝访问错误，我尝试添加标头，但仍然遇到同样的问题。 这是代码打印的内容：

</html>

<html><head>
<title>Access Denied</title>
</head><body>
<h1>Access Denied</h1>

You don't have permission to access "http://www.jdsports.co.uk/product/white-nike-air-force-1-shadow-womens/15984107/" on this server.<p>
Reference #18.4d4c1002.1616968601.6e2013c
</p></body>
</html>

下面是获取 HTML 的部分代码：

scraper=requests.Session()

headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36',
}
            
html = scraper.get(info[0], proxies= proxy_test, headers=headers).text
soup = BeautifulSoup(html, 'html.parser')

print(soup)
stock = soup.findAll("button", {"class": "btn btn-default"})

我还能尝试解决什么问题？ 我要抓取的网站是https://www.jdsports.co.uk/

Answer 1

不确定你在哪里，但在美国，你的代码对我有用。 我只需要使用不同的产品，因为上面列出的 url 不存在。 我能够看到按钮列表。 也不需要标题。

url = 'https://www.jdsports.co.uk/product/black-nike-air-force-1-react-lv8-all-stars/16080098/'
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
soup.findAll("button", {"class": "btn btn-default"})

使用 Python 请求进行 Webscraping，即使在更新标头后也被拒绝访问

问题描述

1 个解决方案

解决方案1
0 2021-03-29 01:22:35

使用 Python 请求进行 Webscraping，即使在更新标头后也被拒绝访问

问题描述

1 个解决方案

解决方案1 0 2021-03-29 01:22:35

解决方案1
0 2021-03-29 01:22:35