Python 3.7 urllib.request代替內容

Question

因此，我編寫了一個代碼，該代碼讀取並打印HTML代碼中指定文本之間的所有內容，例如example，讀取所有段落之間的內容。 這是來自senddex課- 這里

代碼沒有問題，但是問題出在哪里。 我用非常具體的條件進行了過濾

paragraphs = re.findall(r'<div style="font-size: 23px; margin-top: 20px;" class="jsdfx-sentiment-present">(.*?)</div>',str(respData))

因此，如上所述。 稍后打印內容，並打印＆nbsp。 據我了解，這是HTML中的非制動空間。 我希望看到的不是空格，而是數字。 在此網站上，此位置的數字每隔幾秒鍾更新一次。

我如何獲得這些號碼而不是接收＆nbsp？

問候！

Answer 1

這取決於您下載頁面的方式以及從何處下載，但是由於您說在Web瀏覽器中查看時值會不斷變化，因此我敢保證下載頁面時， &nbsp正是其中的內容該div-當您實際查看頁面時，頁面會通過javascript或其他方式即時更改它。 您的教程使用了一個靜態標記，該標記在每次加載頁面時都相同，而不是在頁面已激活后動態設置的標記。

在Web開發中針對動態值執行此操作是相當普遍的-將占位符值放入div中，然后根據需要動態編輯內容。 如果可以的話，如果您只是為頁面拍攝快照（甚至更多，如果您在javascript代碼之前拍攝快照，那么可以填充該值的東西還有機會運行），您將不會看到更改，則只獲得默認值，而無需填寫數字。

根據您鏈接的教程，您可能正在使用urllib 。 如果要從HTML頁面獲取動態內容，那可能不是最好的工具-您應該研究selenium和BeautifulSoup 。 這個StackOverflow答案詳細介紹了解決此問題的有效方法。

Python 3.7 urllib.request代替內容

問題描述

1 個解決方案

解決方案1
0 已采納 2018-11-30 20:47:00

Python 3.7 urllib.request代替內容

問題描述

1 個解決方案

解決方案1 0 已采納 2018-11-30 20:47:00

解決方案1
0 已采納 2018-11-30 20:47:00