从一个父级获取子级节点名称

Question

给定以下XML结构

<cmap>
   <tableVersion version="0" />
   <cmap_format_4 platformID="0" platEncID="3" language="0">
      <map code="0x20" name="space" />
      <!-- SPACE -->
      <!--many, many more characters-->
   </cmap_format_4>
   <cmap_format_0 platformID="1" platEncID="0" language="0">
      <map code="0x0" name=".notdef" />
      <!--many, many more characters again-->
   </cmap_format_0>
   <cmap_format_4 platformID="0" platEncID="3" language="0">
      <!--"cmap_format_4" again-->
      <map code="0x20" name="space" />
      <!-- SPACE -->
      <!--more "map" nodes-->
   </cmap_format_4>
</cmap>

我正在尝试逐步获取cmap_format_0级别的节点名称列表以及它们下面的所有code和name节点。

预期结果

cmap_format_4
0x0   null
0xd   CR
ox20  space
etc...

cmap_format_0
0x0   notdef
0x1   notdeaf
etc...

到目前为止，我有

charactersByFontString = "CODE\tCHAR DESC\n"
tree = ET.parse(xmlFile)
root = tree.getroot()

for map in root.iter("map"):
    charactersByFontString += map.attrib["code"] + "\t"
    charactersByFontString += map.attrib["name"] + "\n"

这就是我所有的代码和名称。 但是我无法获得c_format_n的名称。

for child in root:
    print child.child

因为tableversion是它的第一个孩子，它是自动关闭的，并且没有孩子，所以它不起作用。 （另外，我不确定将一堆child节点串在一起是否也可以。） child.sibling给我一个错误。 如何获得cmap_format_n格式的这些子cmap_format_n ？

Answer 1

我可以建议使用XSLT转换输入XML吗？

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
    <xsl:output method="text" encoding="UTF-8" indent="yes" />

    <xsl:template match="/cmap">
        <xsl:apply-templates select="*[starts-with(name(), 'cmap_')]" />
    </xsl:template>

    <xsl:template match="*[starts-with(name(), 'cmap_')]">
        <xsl:value-of select="name()" />
        <xsl:text>&#xA;</xsl:text>
        <xsl:apply-templates select="map" />
        <xsl:text>&#xA;</xsl:text>
    </xsl:template>

    <xsl:template match="map">
        <xsl:apply-templates select="@code" />
        <xsl:text>&#x9;</xsl:text>
        <xsl:apply-templates select="@name" />
        <xsl:text>&#xA;</xsl:text>
    </xsl:template>
</xsl:stylesheet>

输出（ http://xsltransform.net/bFDb2Cu ）

cmap_format_4
0x20    space

cmap_format_0
0x0 .notdef

cmap_format_4
0x20    space

在这里可以找到有关如何在Python中使用XSLT的示例。

我并不是说它不能像您尝试它那样进行（DOM遍历）-它绝对可以-XSLT更自然地适合该任务。

Answer 2

import xml.etree.ElementTree as ET

xmlFile = "pytest.xml"

out = "CODE\tCHAR DESC\n"

tree = ET.parse(xmlFile)
root = tree.getroot()

for child in root:
    if child.tag[:4] == 'cmap':
        out += child.tag + '\n'
        for grandchild in child:
            out += grandchild.attrib["code"] + '\t'
            out += grandchild.attrib["name"] + '\n'
        out += '\n'

print(out)

从一个父级获取子级节点名称

问题描述

预期结果

2 个解决方案

解决方案1
1 2015-04-02 21:46:04

解决方案2
0 2015-04-02 21:56:44

从一个父级获取子级节点名称

问题描述

预期结果

2 个解决方案

解决方案1 1 2015-04-02 21:46:04

解决方案2 0 2015-04-02 21:56:44

解决方案1
1 2015-04-02 21:46:04

解决方案2
0 2015-04-02 21:56:44