簡體   English   中英

Python 3.7 urllib.request代替內容

[英]Python 3.7 urllib.request reurns &nbsp instead of content

因此,我編寫了一個代碼,該代碼讀取並打印HTML代碼中指定文本之間的所有內容,例如example,讀取所有段落之間的內容。 這是來自senddex課- 這里

代碼沒有問題,但是問題出在哪里。 我用非常具體的條件進行了過濾

paragraphs = re.findall(r'<div style="font-size: 23px; margin-top: 20px;" class="jsdfx-sentiment-present">(.*?)</div>',str(respData))

因此,如上所述。 稍后打印內容,並打印&nbsp。 據我了解,這是HTML中的非制動空間。 我希望看到的不是空格,而是數字。 在此網站上,此位置的數字每隔幾秒鍾更新一次。

我如何獲得這些號碼而不是接收&nbsp?

問候!

這取決於您下載頁面的方式以及從何處下載,但是由於您說在Web瀏覽器中查看時值會不斷變化,因此我敢保證下載頁面時, &nbsp正是其中的內容該div-當您實際查看頁面時,頁面會通過javascript或其他方式即時更改它。 您的教程使用了一個靜態標記,該標記在每次加載頁面時都相同,而不是在頁面已激活后動態設置的標記。

在Web開發中針對動態值執行此操作是相當普遍的-將占位符值放入div中,然后根據需要動態編輯內容。 如果可以的話,如果您只是為頁面拍攝快照(甚至更多,如果您在javascript代碼之前拍攝快照,那么可以填充該值的東西還有機會運行),您將不會看到更改,則只獲得默認值,而無需填寫數字。

根據您鏈接的教程,您可能正在使用urllib 如果要從HTML頁面獲取動態內容,那可能不是最好的工具-您應該研究seleniumBeautifulSoup 這個StackOverflow答案詳細介紹了解決此問題的有效方法。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM