Python 3.7 urllib.request代替内容

Question

因此，我编写了一个代码，该代码读取并打印HTML代码中指定文本之间的所有内容，例如example，读取所有段落之间的内容。 这是来自senddex课- 这里

代码没有问题，但是问题出在哪里。 我用非常具体的条件进行了过滤

paragraphs = re.findall(r'<div style="font-size: 23px; margin-top: 20px;" class="jsdfx-sentiment-present">(.*?)</div>',str(respData))

因此，如上所述。 稍后打印内容，并打印＆nbsp。 据我了解，这是HTML中的非制动空间。 我希望看到的不是空格，而是数字。 在此网站上，此位置的数字每隔几秒钟更新一次。

我如何获得这些号码而不是接收＆nbsp？

问候！

Answer 1

这取决于您下载页面的方式以及从何处下载，但是由于您说在Web浏览器中查看时值会不断变化，因此我敢保证下载页面时， &nbsp正是其中的内容该div-当您实际查看页面时，页面会通过javascript或其他方式即时更改它。 您的教程使用了一个静态标记，该标记在每次加载页面时都相同，而不是在页面已激活后动态设置的标记。

在Web开发中针对动态值执行此操作是相当普遍的-将占位符值放入div中，然后根据需要动态编辑内容。 如果可以的话，如果您只是为页面拍摄快照（甚至更多，如果您在javascript代码之前拍摄快照，那么可以填充该值的东西还有机会运行），您将不会看到更改，则只获得默认值，而无需填写数字。

根据您链接的教程，您可能正在使用urllib 。 如果要从HTML页面获取动态内容，那可能不是最好的工具-您应该研究selenium和BeautifulSoup 。 这个StackOverflow答案详细介绍了解决此问题的有效方法。

Python 3.7 urllib.request代替内容

问题描述

1 个解决方案

解决方案1
0 已采纳 2018-11-30 20:47:00

Python 3.7 urllib.request代替内容

问题描述

1 个解决方案

解决方案1 0 已采纳 2018-11-30 20:47:00

解决方案1
0 已采纳 2018-11-30 20:47:00