使用lxml.etree讀取元素中的文本

Question

我正在使用lxml libray的Python版本。 我目前正在嘗試從表中解析文本，但是遇到了一些文本是鏈接的問題。

例如，一個單元格可能看起來像這樣：

<td>
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>

說在解析html之后，td元素存儲為foo 。 然后foo.text將不顯示整個文本，僅顯示不是鏈接的部分。 此外，如果我使用[i.text for i in foo.getchildren()]找到鏈接文本，我將不再知道放置非鏈接文本和鏈接文本的順序。

有一個簡單的方法可以解決此問題嗎？

Answer 1

在搜索一個小時之后，在發布此問題的2分鍾內，我找到了解決方案。

使用方法foo.text_content() ，這將顯示所需的內容。