Python minidom XML解析器-忽略子標簽

Question

我有一個XML文件，看起來像：

<tag1>
    <tag2>
        I am too good <italic>to be true</italic>
    </tag2>
</tag1>

現在，當我想提取“ tag2”標簽中的數據時，然后假設將XML文件讀入“ XML_data”變量中：

XML_data.getElementsByTagName('tag1')[0].getElementsByTagName('tag2')[0].childNodes[0].data
evaluates to "I am too good"
and 
XML_data.getElementsByTagName('tag1')[0].getElementsByTagName('tag2')[0].getElementsByTagName('italic')[0].childNodes[0].data
evaluates to "to be true"

我想要的是能夠通過忽略斜體標簽來提取tag2中的整個塊。 即，我希望我的能力

"I am too good <italic>to be true</italic>"

我該怎么做呢？ 請幫忙。

Answer 1

終於用了ElementTree

import xml.etree.ElementTree as ET
import re

def extractTextFromElement(elementName, stringofxml):
    tree = ET.fromstring(stringofxml)
    for child in tree.getiterator():
        if child.tag == elementName:
            len = ET.tostring(child)
            return re.sub(r'<.*?>', '', len)


usage: extractTextFromElement('tag2', XML_data)

Python minidom XML解析器-忽略子標簽

問題描述

1 個解決方案

解決方案1
0 已采納 2014-10-17 15:27:26

Python minidom XML解析器-忽略子標簽

問題描述

1 個解決方案

解決方案1 0 已采納 2014-10-17 15:27:26

解決方案1
0 已采納 2014-10-17 15:27:26