繁体   English   中英

网页抓取时访问被拒绝 403; 该怎么办?

[英]Access Denied 403 when webscraping; What to do?

我正在测试我构建的抓取算法。 我向https://www2.hm.com/fi_fi/miesten.html提出请求,但错误指定了用户代理信息。 似乎这触发了立即禁止(不确定)抓取他们的网站应该没问题-他们的 robots.txt 说:用户代理:* 禁止:)

向 HM 发出请求和后续服务器响应的示例

由于隐私问题,我删除了用户代理和代理信息。 然而,它们并没有什么不同寻常。

我收到以下回复:

"b'\\n访问被拒绝\\n\\n

\\n \\n您无权访问此服务器上的“http://www2.hm.com/fi_fi/miesten.html”。

\\n参考 #18.2796ef50.1625728417.f9aab80\\n\\n\\n'"

所以我的问题是:我能做些什么来解除这个禁令? 我可以从他们的一端连接某人并要求解除它吗? 如果是这样,通常在哪里可以找到这些信息。 虽然这个问题特别关注这个网站,但这是一个更广泛的问题。 在禁止的情况下,用户可以尝试从服务器连接某人吗? 我想联系客户支持,但我严重怀疑他们无法帮助解决这个问题,甚至不明白这是怎么回事。

我用谷歌搜索了这个问题,但没有找到任何帮助。 他们通常建议清除缓存、内存等。这不是这里的问题。 我可以通过 Chrome 或其他浏览器访问该站点,但是通过 python 使用请求时,会出现此问题。

很确定您需要使用 Javascript 抓取机器人,您可以尝试使用此工具: https : //docs.python-requests.org/projects/requests-html/en/latest/

要获取有关网站所有者的联系信息,您可以使用 unix whois 命令:

whois hm.com

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM