繁体   English   中英

如何在 python 中使用 ElementTree 获取元素的 xml:id

[英]How do I get the xml:id of an element using ElementTree in python

很抱歉,如果这是一个非常基本的问题,但我已经在这个问题面前坐了几个小时了,就是无法让它发挥作用。

我正在使用英国国家语料库(这些文件是 XML 格式的),我想提取这些文件中不同人的属性。 我正在使用的部分的结构如下:

<bncDoc>
<teiHeader>
<profileDesc>
<particDesc n="C196">
                <person ageGroup="X" xml:id="PS21Y" role="unspecified" sex="f" soc="UU" dialect="NONE" firstLang="EN-GBR" educ="X">
                    <persName>j. hammond</persName>
                    <occupation>interviewer</occupation>
                </person>
                <person ageGroup="X" xml:id="PS220" role="unspecified" sex="m" soc="UU" dialect="XIS" firstLang="EN-GBR" educ="X">
                    <persName>Bhagan</persName>
                </person>
</particDesc>
</profileDesc>
</teiHeader>
</bncDoc>

我正在尝试提取“person”元素的“id”、“sex”、“soc”和“ageGroup”。 但我只是不知道它如何与那些“xml:id”一起工作。 我尝试这样做的方式(如下所示)不起作用。 它适用于“sex”、“soc”和“ageGroup”,但不适用于“xml:id”。 有谁知道,如何让它发挥作用? 这对我有很大帮助: :)

for i in root.findall('teiHeader/profileDesc/particDesc/person'):
            tmp = []
            tmp.append(i.get('id'))
            tmp.append(i.get('sex'))
            tmp.append(i.get('soc'))
            tmp.append(i.get('ageGroup'))

如果你使用它就有效

i.get('{http://www.w3.org/XML/1998/namespace}id')

这看起来有点难看,但它与以下事实有关xml:是绑定到http://www.w3.org/XML/1998/namespace URI 的特殊命名空间前缀。 请参阅https://www.w3.org/XML/1998/namespace

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM