如何使用lxml獲取根元素的文本？

Question

我完全不知道為什么lxml .text會給我一個子標簽的文本但是為root標簽。

some_tag = etree.fromstring('<some_tag class="abc"><strong>Hello</strong> World</some_tag>')

some_tag.find("strong")
Out[195]: <Element strong at 0x7427d00>

some_tag.find("strong").text
Out[196]: 'Hello'

some_tag
Out[197]: <Element some_tag at 0x7bee508>

some_tag.text

some_tag.find("strong").text返回<strong>標記之間的文本。

我希望some_tag.text能夠返回<some_tag> ... </some_tag>之間的所有內容

預期：

<strong>Hello</strong> World

相反，它什么都不返回。

Answer 1

from lxml import etree

XML = '<some_tag class="abc"><strong>Hello</strong> World</some_tag>'

some_tag = etree.fromstring(XML)

for element in some_tag:
    print element.tag, element.text, element.tail

輸出：

strong Hello  World

有關.text和.tail屬性的信息，請參閱：

要獲得您期望的結果，請使用

print etree.tostring(some_tag.find("strong"))

輸出：

<strong>Hello</strong> World

Answer 2

你會在這里找到丟失的文字

>>> some_tag.find("strong").tail
' World'

查看http://lxml.de/tutorial.html並搜索“tail”。

Answer 3

我不確定你理解你的問題，但解析時你有兩個主要的解決方案：

DOMParser：取決於語言，它是node.getNodeValue（）;

SAXParser：取決於語言，但在例如java中是在fonction：characters（...）

我沒有時間在谷歌搜索，但在python中，我知道MiniDOM（一個DOM解析器）： http ： //www.blog.pythonlibrary.org/2010/11/12/python-parsing-xml-with-minidom /

我希望我的回答可以幫到你。

Answer 4

這有幫助嗎？

comp = [ etree.tostring(e) for e in some_tag]
print ''.join(comp[0])

編輯：謝謝@mzjin讓我走上正軌

Answer 5

您必須使用內置的lxml方法來檢索標記之間的所有文本。

  from lxml import etree
  xml='''<some_tag class="abc"><strong>Hello</strong> World</some_tag>'''
  tree = etree.fromstring(xml)
  print(''.join(tree.xpath('//text()')))

如何使用lxml獲取根元素的文本？

問題描述

5 個解決方案

解決方案1
8 2012-04-21 17:58:23

解決方案2
1 2012-04-21 12:19:40

解決方案3
0 2012-04-21 11:59:49

解決方案4
0 2012-04-21 13:40:47

解決方案5
0 2017-07-10 10:59:31

如何使用lxml獲取根元素的文本？

問題描述

5 個解決方案

解決方案1 8 2012-04-21 17:58:23

解決方案2 1 2012-04-21 12:19:40

解決方案3 0 2012-04-21 11:59:49

解決方案4 0 2012-04-21 13:40:47

解決方案5 0 2017-07-10 10:59:31

解決方案1
8 2012-04-21 17:58:23

解決方案2
1 2012-04-21 12:19:40

解決方案3
0 2012-04-21 11:59:49

解決方案4
0 2012-04-21 13:40:47

解決方案5
0 2017-07-10 10:59:31