繁体   English   中英

当特定文本位于跨度标签中时,如何从网页中提取文本

[英]how do I extract text from a webpage when the specific text is in a span tag

我正在尝试编写一个 python 程序,该程序通过谷歌教室页面运行并提取我老师写的任何新帖子的文本。 我尝试运行许多不同的建议代码,但没有一个对我有用。 每个帖子 CSS 都在以下标签下:“此处的任何文本”。 我所做的任何提取文本的尝试都失败了。 我的最终目标是编写一个程序,该程序将获取任何这些标签下的所有文本并过滤它们以仅返回包含特定关键字的帖子。 主要问题是,当我尝试提取文本时,程序总是返回一个空数组/[],尽管那里有文本。 任何帮助表示赞赏。

下面是一个例子:使用stackoverflow.com,我们可以select将标题放在两个span标签之间。

import urllib.request
import re

fid=urllib.request.urlopen('http://stackoverflow.com/')
webpage=fid.read().decode('utf-8')
print(webpage + "\n") # print the contents of the webpage
title = re.findall("<title>(.*?)</title>", webpage) #copy the title in between the two span tags
print("The Title of the webpage is:\n")
print(title)

例子

import re
spantag = '<p><span style = "color:#8866ff;"> Hello World </span>'
all = re.findall("\;\"\>(.*?)</span>", spantag)
print(all)

示例 2

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM