
[英]python xml.etree.ElementTree remove empty tag in the middle of text
[英]Python etree control empty tag format
使用 Python 的 etree 创建 XML 文件时,如果我们使用SubElement
向文件写入一个空标签,我会得到:
<MyTag />
不幸的是,我们在 Fortran 中使用的 XML 解析器库不能处理这个问题,即使它是一个正确的标签。 它需要看到:
<MyTag></MyTag>
有没有办法更改格式规则或 etree 中的某些内容以使其工作?
从 Python 3.4 开始,您可以对tostring()
函数和ElementTRee.write()
方法使用short_empty_elements
参数:
>>> from xml.etree import ElementTree as ET
>>> ET.tostring(ET.fromstring('<mytag/>'), short_empty_elements=False)
b'<mytag></mytag>'
在较旧的 Python 版本(2.7 到 3.3)中,作为一种变通方法,您可以使用html
方法写出文档:
>>> from xml.etree import ElementTree as ET
>>> ET.tostring(ET.fromstring('<mytag/>'), method='html')
'<mytag></mytag>'
ElementTree.write()
方法和tostring()
函数都支持method
关键字参数。
在更早版本的 Python(2.6 及更早版本)上,您可以安装外部 ElementTree 库; 1.3 版支持该关键字。
是的,这听起来有点奇怪,但是html
输出主要输出空元素作为开始和结束标记。 一些元素仍然以空标签元素结束; 特别是<link/>
, <input/>
, <br/>
等等。 尽管如此,还是升级您的 Fortran XML 解析器以实际解析符合标准的 XML!
这在 Python 3.4 中直接解决了。 从那时起, xml.etree.ElementTree.ElementTree
的write
方法具有short_empty_elements
参数:
控制不包含内容的元素的格式。 如果为 True(默认值),则它们作为单个自闭合标签发出,否则它们作为一对开始/结束标签发出。
xml.etree 文档中的更多详细信息。
如果您有可用的 sed,则可以将 python 脚本的输出通过管道传输到
sed -e "s/<\([^>]*\) \/>/<\1><\/\1>/g"
它将找到<Tag />
任何出现并将其替换为<Tag></Tag>
添加空text
是另一种选择:
etree.SubElement(parent, 'child_tag_name').text=''
但请注意,这不仅会改变表示形式,还会改变文档的结构:即child_el.text
将是''
而不是None
。
哦,就像 Martijn 所说的,尝试使用更好的库。
解释一下代码,我使用的ElementTree.py
版本在_write
方法中包含以下内容:
write('<' + tagname)
...
if node.text or len(node): # this line is literal
write('>')
...
write('</%s>' % tagname)
else:
write(' />')
为了引导程序计数器,我创建了以下内容:
class AlwaysTrueString(str):
def __nonzero__(self): return True
true_empty_string = AlwaysTrueString()
然后我在那些 ElementTree 节点上设置node.text = true_empty_string
,我想要一个打开-关闭标签而不是一个自关闭标签。
通过“引导程序计数器”,我的意思是构造一组输入——在这种情况下是一个带有一些奇怪的真实测试的对象——到一个库方法,这样库方法的调用就会按照我想要的方式遍历它的控制流图. 这非常脆弱:在库的新版本中,我的 hack 可能会中断——你可能应该将“可能”视为“几乎可以保证”。 一般来说,不要打破抽象障碍。 它只是在这里对我有用。
如果您有 python >=3.4,请使用其他答案中已经显示的short_empty_elements=False
选项,但是:
然后这有效:
xml = "<foo/><bar/>"
xml = re.sub(r'<([^\/]+)\/\>', r'<\1></\1>', xml)
print(xml)
# output will be
# <foo></foo><bar></bar>
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.