繁体   English   中英

xml.etree.ElementTree .remove

[英]xml.etree.ElementTree .remove

我正在尝试使用 remove 从 Xml.Alto 文件中remove标签。 我的 Alto 文件如下所示:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.loc.gov/standards/alto/ns-v4# http://www.loc.gov/standards/alto/v4/alto-4-2.xsd">   <Description>
    <MeasurementUnit>pixel</MeasurementUnit>
    <sourceImageInformation>
      <fileName>filename</fileName>
    </sourceImageInformation>   
</Description>   
<Layout>
    <Page>
      <PrintSpace>
        <TextBlock>
          <Shape><Polygon/></Shape>
          <TextLine>
            <Shape><Polygon/></Shape>
        <String CONTENT="ABCDEF" HPOS="1234" VPOS="1234" WIDTH="1234" HEIGHT="1234" />
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>   
</Layout> 
</alto>

我的代码是:

import xml.etree.ElementTree as ET
tree = ET.parse("file.xml")
root = tree.getroot()
ns = {'alto': 'http://www.loc.gov/standards/alto/ns-v4#'}
ET.register_namespace("", "http://www.loc.gov/standards/alto/ns-v4#")
for Test in root.findall('.//alto:TextBlock', ns):
    root.remove(Test)
    
tree.write('out.xml', encoding="UTF-8", xml_declaration=True)

这是我得到的错误:

ValueError: list.remove(x): x not in list

非常感谢您的帮助💐

ElementFather.remove(ElementChild)仅在ElementChildElementFather的子元素时才有效。 在您的情况下,您必须从 PrintSpace 调用 remove。

import xml.etree.ElementTree as ET
tree = ET.parse("file.xml")
root = tree.getroot()
ns = {'alto': 'http://www.loc.gov/standards/alto/ns-v4#'}
ET.register_namespace("", "http://www.loc.gov/standards/alto/ns-v4#")

for Test in root.findall('.//alto:TextBlock', ns):
    PrintSpace = root.find('.//alto:PrintSpace',ns)
    PrintSpace.remove(Test)
    
tree.write('out.xml', encoding="UTF-8", xml_declaration=True)

注意:此代码只是一个有效解决方案的示例,您可以对其进行改进。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM