簡體   English   中英

使用請求在 Python 中不使用 Javascript 的 Web 抓取

[英]Web scraping without Javascript in Python using requests

所以,我正在制作一個 Python 腳本,它獲取網頁內容並將其與之前保存的版本進行比較,以查看網頁是否已更改。 我正在使用這種方法獲取原始內容:

def getcontent(url):
    str = requests.get(url)
    str = str.text
    return(str)

之后,我正在清理內容並引用 escaping 等,但這無關緊要。 我一直遇到的問題是,網頁有一些 JavaScript 代碼,它會生成我的方法下載的唯一密鑰。 每次抓取網頁內容,key都不一樣。 我對那把鑰匙的用途一無所知。 問題是,如果密鑰不同,新內容和保存的內容就不一樣了。

當我請求網頁時,如何禁用 JavaScript 運行?

令牌是在服務器端生成的,可以用於各種原因(例如 CSRF-token)

令牌將始終在您的響應內容中,不需要 JavaScript。

您應該找到一種忽略/刪除令牌的方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM