使用minidom從URL解析XML與Python

Question

我從網址解析以下xml時遇到問題。

我的網址路徑中的示例XML：

<?xml version="1.0" encoding="utf-8"?> 
<Documents>
    <class>
        <mid name="yyyyyyyyyyyyy"></mid>
        <person name="yyyyyyyyyy"></person>
        <url name="yyyyyyyyy"></url>
    </class>
    <class>
        <mid name="xxxxx"></mid>
        <person name="xxxxxxxxxx"></person>
        <url name="xxxxxxxxxxx"></url>
    </class>
</Documents>

下面是我的python代碼；

def staff_list(request):

    url = http://path.to.url/
    dom = minidom.parse(urlopen(url))
    person = dom.getElementsByTagName('person')
    for i in person:
        print i.attributes['name'].value

在forloop中，我想在屬於同一父類的xml中打印person和url標記值。

我嘗試了以下方法進行迭代，但得到“太多值無法解包”錯誤

def staff_list(request):

    url = http://path.to.url/
    dom = minidom.parse(urlopen(url))
    person = dom.getElementsByTagName('person')
    mid = dom.getElementsByTagName('mid')
    url = dom.getElementsByTagName('url')
    for i,j,k in person,mid,url:
        print i.attributes['name'].value,j.attributes['name'].value,k.attributes['name'].value

有什么建議么？

Answer 1

我想使用zip()組合元素，我認為：

for i,j,k in zip(person, mid, url):

不過，請幫自己一個大忙，改用ElementTree API ； 與XML DOM API相比，該API具有很強的Python風格並且易於使用。

Answer 2

如果您想堅持minidom ，可以將循環更改為：

for cls in dom.getElementsByTagName('class'):
    person = cls.getElementsByTagName('person')[0]
    mid = cls.getElementsByTagName('mid')[0]
    url = cls.getElementsByTagName('url')[0]

    print person.attributes['name'].value
    print mid.attributes['name'].value
    print url.attributes['name'].value

正如@Martijn Pieters所說的，看看ElementTree作為替代API。 例如：

import xml.etree.ElementTree as ET
documents = ET.fromstring(xmlstr)
for cls in documents.iter('class'):
    person = cls.find('person')
    mid = cls.find('mid')
    url = cls.find('url')

    print person.get('name'), mid.get('name'), url.get('name')

Answer 3

我將使用xpath和lxml.html：極簡方法：

import lxml.html as lh
doc=lh.parse(test.xml)

In [70]: persons = doc.xpath('.//person/@name')

In [71]: urls=doc.xpath('.//person[@name]/following-sibling::url/@name')

In [72]: mids=doc.xpath('.//person[@name]/preceding-sibling::mid/@name')

In [73]: [[p,m,u]for p,m,u in zip(persons, mids, urls)]
Out[73]: 
[['yyyyyyyyyy', 'yyyyyyyyyyyyy', 'yyyyyyyyy'],
 ['xxxxxxxxxx', 'xxxxx', 'xxxxxxxxxxx']]

使用minidom從URL解析XML與Python

問題描述

3 個解決方案

解決方案1
2 已采納 2012-10-12 11:03:54

解決方案2
1 2012-10-12 11:07:38

解決方案3
0 2012-10-12 11:43:35

使用minidom從URL解析XML與Python

問題描述

3 個解決方案

解決方案1 2 已采納 2012-10-12 11:03:54

解決方案2 1 2012-10-12 11:07:38

解決方案3 0 2012-10-12 11:43:35

解決方案1
2 已采納 2012-10-12 11:03:54

解決方案2
1 2012-10-12 11:07:38

解決方案3
0 2012-10-12 11:43:35