簡體   English   中英

從網站的 XHR 響應中抓取更新的源代碼

[英]Scraping UPDATED source code from XHR response of a website

網站 url www.example.com/abc在遍歷不同頁面時不會改變。 在 CHROME 瀏覽器 XHR 選項卡上使用 DEV TOOLS 檢查后,注意到 POST 請求被發布到 url www.example.com/abc-data並基於 url www.example.com/abc的響應源代碼發生變化。

然而,90% 的數據正在返回並且可以從 XHR 響應中抓取,但是 10% 的數據存在於動態源代碼中,它根據 XHR 響應進行更新。

我已經在 inte.net 上嘗試了所有可能的可用解決方案,但無法破解此問題的解決方案。

環境:Mac OS X Ventura Python 3.7.3

注意:使用 BeautifulSoup

短代碼片段

url1 = www.example.com/abc
url2 = www.example.com/abc-data
with requests.Session() as s:
r = s.get(url1) # Extract token from this URL
# SOME CODE HERE
r = s.post(url2, data=payload) # Use token from above for this URL and session
soup = BeautifulSoup(r.text, 'html.parser')

在如上所述的 POST 請求之后,HTML SOURCE CODE 被更新,我無法使用 BeautifulSoup 獲得它。我收到的只是 JSON 響應。

任何幫助將非常感激!!!

據我了解,您正在嘗試使用 BeautifulSoup 獲取 web 頁面的動態內容。這是不可能的。 BeautifulSoup 僅抓取 static web 內容。

如果你真的想獲得動態內容,我建議使用Selenium

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM