繁体   English   中英

美丽的汤提取跨度标签之间的文本

Beautiful soup extract text between span tags

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

<span id="priceblock_dealprice" class="a-size-medium a-color-price"><span class="currencyINR">&nbsp;&nbsp;</span> 33,990.00 </span>

我需要从上面的html中提取数字33,990.00。

3 个回复

随着美丽的汤:

from bs4 import BeautifulSoup as bs

content = '''<span id="priceblock_dealprice" class="a-size-medium a-color-price"><span class="currencyINR">&nbsp;&nbsp;</span> 33,990.00 </span>'''

soup = bs(content,'html5lib')
print(soup.text.strip())

对于硒来说,这是一项好工作:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Firefox()

browser.get(URL)

delay = 30  # seconds
WebDriverWait(browser, delay).until(EC.presence_of_element_located((By.ID, 'priceblock_dealprice')))
print("Page is ready!")

text = browser.find_element_by_id("priceblock_dealprice").text

为什么要使用selenium 没必要 如果页面是JavaScript呈现的,则仅使用selenium 否则,请使用以下命令:

from bs4 import BeautifulSoup
html = '<span id="priceblock_dealprice" class="a-size-medium a-color-price"><span class="currencyINR">&nbsp;&nbsp;</span> 33,990.00 </span>'
soup = BeautifulSoup(html, 'lxml')
text = soup.select_one('span.a-color-price').text.strip()

输出:

33,990.00
1 美丽的汤4:提取没有标签的文本

这是一些HTML。 我想提取文本“我想提取的某些文本”,并且我不想提取Hello world。 我尝试过像find('span')之类的东西,并使用next_sibling,但是我没有。 这给了我Hello world和“一些我想提取的文字”。 是否有仅提取“我要提取的某些文 ...

3 美丽的汤提取精确的标签

我一直试图开始使用BS4,但我似乎遇到了其中一个表的问题。 所以,我有以下内容: 我想从上面提取&lt;td align="center"&gt; 。 所以,我有类似的东西: 但这给了我以上4种组合。 如何指定仅提取&lt;td align="center"&gt; (具有 ...

4 提取两个不同标签之间的文字美丽的汤

我正在尝试从此网页中提取文章的文本内容。 我只是想提取文章内容而不是“关于作者部分”。 问题是所有内容都不在像&lt;div&gt;这样的标签内。 因此我无法提取它们,因为它们都在&lt;p&gt;标签内。 当我提取所有&lt;p&gt;标签时,我也会得到“关于作者”部分。 我 ...

5 美丽的汤:提取两个标签之间的所有内容

我正在使用 BeautifulSoup 从 HTML 文件中提取数据。 我想获取两个标签之间的所有信息。 这意味着,如果我有这样的 HTML 部分: 然后,如果我想要第一个 h1 和第二个 h1 之间的所有信息,输出将如下所示: 我试过 nextsibling 循环,但似乎总是有问题。 B ...

6 美丽的汤提取物标签删除文本

我正在尝试使用Beautifuloup提取html标签并删除文本。 例如,使用以下html: 理想的结果是: 到目前为止,这是我得到的: 使用tag.attrs = {}可删除所有标签属性。 但是当我尝试使用tag.string或tag.clear()时,我只剩下&l ...

7 用美丽的汤解析跨度

我正在尝试通过某些网站来解析,以查找div标签和class_内的“ span”。 如果跨度等于字符串,例如“ line”,则跨度属于特定类,则它将返回网站的实际链接。 我收到的错误消息: 第28行,在汤中= BeautifulSoup(url_html,“ html.parse ...

9 使用美丽的汤从各种标签中提取标题

我如何使用漂亮的汤从下面的html中提取两种表格类型的表格标题 在第一个表上,标题位于&lt;p&gt;标记内,在第二个表上,标题位于&lt;div&gt;标记内。 同样在第二个表上,在表上方有一个空白的&lt;div&gt;标记。 如何提取两个表标题? 目前,我正在使用ta ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2021 STACKOOM.COM