从网站的 XHR 响应中抓取更新的源代码

Question

网站 url www.example.com/abc在遍历不同页面时不会改变。 在 CHROME 浏览器 XHR 选项卡上使用 DEV TOOLS 检查后，注意到 POST 请求被发布到 url www.example.com/abc-data并基于 url www.example.com/abc的响应源代码发生变化。

然而，90% 的数据正在返回并且可以从 XHR 响应中抓取，但是 10% 的数据存在于动态源代码中，它根据 XHR 响应进行更新。

我已经在 inte.net 上尝试了所有可能的可用解决方案，但无法破解此问题的解决方案。

环境：Mac OS X Ventura Python 3.7.3

注意：使用 BeautifulSoup

短代码片段

url1 = www.example.com/abc
url2 = www.example.com/abc-data
with requests.Session() as s:
r = s.get(url1) # Extract token from this URL
# SOME CODE HERE
r = s.post(url2, data=payload) # Use token from above for this URL and session
soup = BeautifulSoup(r.text, 'html.parser')

在如上所述的 POST 请求之后，HTML SOURCE CODE 被更新，我无法使用 BeautifulSoup 获得它。我收到的只是 JSON 响应。

任何帮助将非常感激！！！

Answer 1

据我了解，您正在尝试使用 BeautifulSoup 获取 web 页面的动态内容。这是不可能的。 BeautifulSoup 仅抓取 static web 内容。

如果你真的想获得动态内容，我建议使用Selenium 。

从网站的 XHR 响应中抓取更新的源代码

问题描述

1 个解决方案

解决方案1
0 2022-12-25 15:55:04

从网站的 XHR 响应中抓取更新的源代码

问题描述

1 个解决方案

解决方案1 0 2022-12-25 15:55:04

解决方案1
0 2022-12-25 15:55:04