我如何从使用python的lxml etree和xpath选择的节点获取（打印）所有内部html？

Question

How could I get all inner html from node which I select using etree xpath: 我如何从使用etree xpath选择的节点获取所有内部html：

>>> from lxml import etree
>>> from StringIO import StringIO
>>> doc = '<foo><bar><div>привет привет</div></bar></foo>'
>>> hparser = etree.HTMLParser()
>>> htree = etree.parse(StringIO(doc), hparser)
>>> foo_element = htree.xpath("//foo")

How could I now print all foo_element's inner HTML as text? 现在如何将所有foo_element的内部HTML打印为文本？ I need to get this: 我需要得到这个：

<bar><div>привет привет</div></bar>

BTW when I tried to use lxml.html.tostring I get strange output: 顺便说一句，当我尝试使用lxml.html.tostring ，得到奇怪的输出：

>>> import lxml.etree
>>> lxml.html.tostring(foo_element[0])
'<foo><bar><div>&#208;&#191;&#209;&#128;&#208;&#184;&#208;&#178;&#208;&#181;&#209;&#130; &#208;&#191;&#209;&#128;&#208;&#178;&#208;&#184;&#208;&#181;&#209;&#130;</div></bar></foo>'

Answer 1

You can apply the same technique as shown in this other SO post . 您可以应用与此其他SO帖子中所示的相同技术。 Example in the context of this question : 有关此问题的示例：

>>> from lxml import etree
>>> from lxml import html
>>> from StringIO import StringIO
>>> doc = '<foo><bar><div>TEST NODE</div></bar></foo>'
>>> hparser = etree.HTMLParser()
>>> htree = etree.parse(StringIO(doc), hparser)
>>> foo_element = htree.xpath("//foo")
>>> print ''.join(html.tostring(e) for e in foo_element[0])
<bar><div>TEST NODE</div></bar>

Or to handle case when the element may contain text node child : 或处理元素可能包含文本节点child的情况：

>>> doc = '<foo>text node child<bar><div>TEST NODE</div></bar></foo>'
>>> htree = etree.parse(StringIO(doc), hparser)
>>> foo_element = htree.xpath("//foo")
>>> print foo_element[0].text + ''.join(html.tostring(e) for e in foo_element[0])
text node child<bar><div>TEST NODE</div></bar>

Refactoring the code into a separate function as shown in the linked post is strongly advised for the real case. 对于实际情况，强烈建议将代码重构为单独的功能，如链接文章中所示。

我如何从使用python的lxml etree和xpath选择的节点获取（打印）所有内部html？

问题描述

1 个解决方案

解决方案1
1 2015-03-19 02:57:48

我如何从使用python的lxml etree和xpath选择的节点获取（打印）所有内部html？

问题描述

1 个解决方案

解决方案1 1 2015-03-19 02:57:48

解决方案1
1 2015-03-19 02:57:48