繁体   English   中英

使用lxml.etree读取元素中的文本

[英]Reading text in elements using lxml.etree

我正在使用lxml libray的Python版本。 我目前正在尝试从表中解析文本,但是遇到了一些文本是链接的问题。

例如,一个单元格可能看起来像这样:

<td>
    Can I kick it, <a>to all the people</a> who can quest like a <a>tribe</a> does
</td>

说在解析html之后,td元素存储为foo 然后foo.text将不显示整个文本,仅显示不是链接的部分。 此外,如果我使用[i.text for i in foo.getchildren()]找到链接文本,我将不再知道放置非链接文本和链接文本的顺序。

有一个简单的方法可以解决此问题吗?

在搜索一个小时之后,在发布此问题的2分钟内,我找到了解决方案。

使用方法foo.text_content() ,这将显示所需的内容。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM