[英]Reading text in elements using lxml.etree
我正在使用lxml libray的Python版本。 我目前正在嘗試從表中解析文本,但是遇到了一些文本是鏈接的問題。
例如,一個單元格可能看起來像這樣:
<td>
Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>
說在解析html之后,td元素存儲為foo
。 然后foo.text
將不顯示整個文本,僅顯示不是鏈接的部分。 此外,如果我使用[i.text for i in foo.getchildren()]
找到鏈接文本,我將不再知道放置非鏈接文本和鏈接文本的順序。
有一個簡單的方法可以解決此問題嗎?
在搜索一個小時之后,在發布此問題的2分鍾內,我找到了解決方案。
使用方法foo.text_content()
,這將顯示所需的內容。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.