簡體   English   中英

從內部包含br標簽的td標簽提取文本

[英]Extracting text from td tag containing br tags inside

我想從內部包含br標簽的td標簽提取文本。

from bs4 import BeautifulSoup
html = "<td class=\"text\">This is <br/>a breakline<br/><br/></td>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.td.string)

實際輸出: None

預期輸出: This is a breakline

從Beautiful Soup 文檔中

如果標簽包含多個內容,則不清楚.string應該指向什么,因此.string被定義為None:

並且如果您想要文本部分文檔

如果只需要文檔或標簽的文本部分,則可以使用get_text()方法。 它以單個Unicode字符串的形式返回文檔中或標簽下的所有文本:

因此,您可以使用以下代碼:

print(soup.get_text())

對於特定標簽soup.td.get_text()

這將為您提供所需的內容:

print(soup.td.text)

這是針對特定的td標簽的

否則,您還有:

print(soup.text)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM