從網站的 XHR 響應中抓取更新的源代碼

Question

網站 url www.example.com/abc在遍歷不同頁面時不會改變。 在 CHROME 瀏覽器 XHR 選項卡上使用 DEV TOOLS 檢查后，注意到 POST 請求被發布到 url www.example.com/abc-data並基於 url www.example.com/abc的響應源代碼發生變化。

然而，90% 的數據正在返回並且可以從 XHR 響應中抓取，但是 10% 的數據存在於動態源代碼中，它根據 XHR 響應進行更新。

我已經在 inte.net 上嘗試了所有可能的可用解決方案，但無法破解此問題的解決方案。

環境：Mac OS X Ventura Python 3.7.3

注意：使用 BeautifulSoup

短代碼片段

url1 = www.example.com/abc
url2 = www.example.com/abc-data
with requests.Session() as s:
r = s.get(url1) # Extract token from this URL
# SOME CODE HERE
r = s.post(url2, data=payload) # Use token from above for this URL and session
soup = BeautifulSoup(r.text, 'html.parser')

在如上所述的 POST 請求之后，HTML SOURCE CODE 被更新，我無法使用 BeautifulSoup 獲得它。我收到的只是 JSON 響應。

任何幫助將非常感激！！！

Answer 1

據我了解，您正在嘗試使用 BeautifulSoup 獲取 web 頁面的動態內容。這是不可能的。 BeautifulSoup 僅抓取 static web 內容。

如果你真的想獲得動態內容，我建議使用Selenium 。

從網站的 XHR 響應中抓取更新的源代碼

問題描述

1 個解決方案

解決方案1
0 2022-12-25 15:55:04

從網站的 XHR 響應中抓取更新的源代碼

問題描述

1 個解決方案

解決方案1 0 2022-12-25 15:55:04

解決方案1
0 2022-12-25 15:55:04