繁体 English 中英

网页抓取时访问被拒绝 403；该怎么办？

[英]Access Denied 403 when webscraping; What to do?

原文 2021-07-08 07:30:37 3 1 python/ web-scraping/ server/ http-headers/ http-status-code-403

我正在测试我构建的抓取算法。 我向https://www2.hm.com/fi_fi/miesten.html提出请求，但错误指定了用户代理信息。 似乎这触发了立即禁止（不确定）抓取他们的网站应该没问题-他们的 robots.txt 说：用户代理：* 禁止：）

向 HM 发出请求和后续服务器响应的示例

由于隐私问题，我删除了用户代理和代理信息。 然而，它们并没有什么不同寻常。

我收到以下回复：

"b'\\n访问被拒绝\\n\\n

\\n \\n您无权访问此服务器上的“http://www2.hm.com/fi_fi/miesten.html”。

\\n参考 #18.2796ef50.1625728417.f9aab80\\n\\n\\n'"

所以我的问题是：我能做些什么来解除这个禁令？ 我可以从他们的一端连接某人并要求解除它吗？ 如果是这样，通常在哪里可以找到这些信息。 虽然这个问题特别关注这个网站，但这是一个更广泛的问题。 在禁止的情况下，用户可以尝试从服务器连接某人吗？ 我想联系客户支持，但我严重怀疑他们无法帮助解决这个问题，甚至不明白这是怎么回事。

我用谷歌搜索了这个问题，但没有找到任何帮助。 他们通常建议清除缓存、内存等。这不是这里的问题。 我可以通过 Chrome 或其他浏览器访问该站点，但是通过 python 使用请求时，会出现此问题。

1 个解决方案

很确定您需要使用 Javascript 抓取机器人，您可以尝试使用此工具： https : //docs.python-requests.org/projects/requests-html/en/latest/

要获取有关网站所有者的联系信息，您可以使用 unix whois 命令：

whois hm.com

Python-POST请求时拒绝403访问

[英]Python - 403 Access Denied When POST Request

使用 BeautifulSoup python 访问站点时访问被拒绝 [403]

[英]Access denied [403] when accessing site with BeautifulSoup python

获取禁止：403 访问被拒绝，当请求使用 python 将数据从谷歌云存储传输到 bigquery 时

[英]get Forbidden: 403 Access Denied when do request to transfer data from google cloud storage to bigquery using python

当我尝试在 python 中设置我自己的 VENV 时访问被拒绝，我该怎么办？

[英]Access Denied when I tried setting my own VENV in python, what do I do?

使用 Python 请求进行 Webscraping，即使在更新标头后也被拒绝访问

[英]Webscraping with Python Requests and getting Access Denied even after updating headers

使用用户代理标头时 Webscraping CrunchBase 访问被拒绝

[英]Webscraping CrunchBase Access Denied while using User Agent Header

网页抓取时出现 Python 错误 HTTP 错误 403：禁止

[英]Python error when webscraping HTTP Error 403: Forbidden

Azure Active Directory 返回 403 作为访问被拒绝

[英]Azure Active directory return 403 as Access denied

HTTP 请求中的 403 Access Denied 状态代码

[英]403 Access Denied status code in a HTTP request

从 PubSub 访问 AutoML 的 403 权限被拒绝

[英]403 permission denied to access AutoML from PubSub

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Python-POST请求时拒绝403访问使用 BeautifulSoup python 访问站点时访问被拒绝 [403] 获取禁止：403 访问被拒绝，当请求使用 python 将数据从谷歌云存储传输到 bigquery 时当我尝试在 python 中设置我自己的 VENV 时访问被拒绝，我该怎么办？使用 Python 请求进行 Webscraping，即使在更新标头后也被拒绝访问使用用户代理标头时 Webscraping CrunchBase 访问被拒绝网页抓取时出现 Python 错误 HTTP 错误 403：禁止 Azure Active Directory 返回 403 作为访问被拒绝 HTTP 请求中的 403 Access Denied 状态代码从 PubSub 访问 AutoML 的 403 权限被拒绝

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM