繁体   English   中英

即使在设置用户代理 header 并使用 session 后,Python 请求仍返回 403

[英]Python requests return 403 even after setting user agent header and using session

我正在尝试抓取这个网站: https://batdongsan.com.vn/ban-can-ho-chung-cu-king-palace 但是请求无法获取该网站。

我添加了用户代理并在我的代码中使用了 session。 这就是我所做的:

from bs4 import BeautifulSoup
import requests

headers={'User-Agent':'Mozilla/5.0    (Windows NT 10.0; Win64; x64) \
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'}

"""step 2 get url"""
URL = "https://batdongsan.com.vn/ban-can-ho-chung-cu-king-palace"
session = requests.Session()
page = session.get(URL, headers=headers)
print(page.status_code)

结果如下:

403

我在另一个网站https://homedy.com上尝试了完全相同的代码。 我只更换了 URL 并保持其他一切完全相同。 运行代码给我:

200

所以我的理解是第一个网站有一些东西阻止了我的代码工作。 但我不知道如何克服它。 如果有人能解决问题,我将不胜感激。 谢谢你。

我认为您的网站使用了一些高级请求指纹识别。

您可以尝试使用此答案

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM