Python-使用BS4從此Html標簽提取數據，而不是獲取None

Question

這是我的代碼：

html = '''
<td class="ClassName class" width="60%">Data I want to extract<span lang=EN- 
UK style="font-size:12pt;font-family:'arial'"></span></td>
'''


soup = BeautifulSoup(html, 'html.parser')

print(soup.select_one('td').string)

它返回None。 我認為這與空的span標簽有關。 我認為它進入了span標簽，並返回了那些內容？ 所以我要么刪除該span標簽，要么在找到“我要提取的數據”后立即停止，或者告訴它忽略空標簽

如果'td'中沒有空標簽，則它實際上可以工作。

是否有一種方法通常可以忽略空標簽並向后退一步？ 而不是忽略此特定的span標簽？

抱歉，這太基礎了，但是我花了很多時間搜索。

Answer 1

使用.text屬性，而不是.string ：

html = '''
<td class="ClassName class" width="60%">Data I want to extract<span lang=EN-
UK style="font-size:12pt;font-family:'arial'"></span></td>
'''

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

print(soup.select_one('td').text)

輸出：

我要提取的數據

Answer 2

使用.text ：

>>> soup.find('td').text
u'Data I want to extract'

Python-使用BS4從此Html標簽提取數據，而不是獲取None

問題描述

2 個解決方案

解決方案1
2 已采納 2018-07-12 15:23:40

解決方案2
2 2018-07-12 15:24:16

Python-使用BS4從此Html標簽提取數據，而不是獲取None

問題描述

2 個解決方案

解決方案1 2 已采納 2018-07-12 15:23:40

解決方案2 2 2018-07-12 15:24:16

解決方案1
2 已采納 2018-07-12 15:23:40

解決方案2
2 2018-07-12 15:24:16