使用Python lxml和Iterparse解析大型XML文件

Question

我试图使用lxml和iterparse方法编写一个解析器，以逐步浏览包含许多项目的非常大的xml文件。

我的文件格式为：

<item>
  <title>Item 1</title>
  <desc>Description 1</desc>
  <url>
     <item>http://www.url1.com</item>
  </url>
</item>
<item>
  <title>Item 2</title>
  <desc>Description 2</desc>
  <url>
     <item>http://www.url2.com</item>
  </url>
</item>

到目前为止，我的解决方案是：

from lxml import etree

context = etree.iterparse( MYFILE, tag='item' )

for event, elem in context :
      print elem.xpath( 'description/text( )' )
      elem.clear( )
      while elem.getprevious( ) is not None :
            del elem.getparent( )[0]

del context

当我运行它时，我得到类似于以下内容：

[]
['description1']
[]
['description2']

空集是因为它还将子项的item标记拉出到url标记中，并且显然没有使用xpath提取的描述字段。 我的希望是逐项分析每个项目，然后根据需要处理子字段。 我只是在学习lxml库，所以我很好奇是否有一种方法可以提取主要项目，而如果遇到任何子项目，则不进行任何设置？

Answer 1

无论如何，整个XML都是由核心实现解析的。 etree.iterparse只是生成器样式的视图，它提供了按标记名称的简单过滤（请参阅docstring http://lxml.de/api/lxml.etree.iterparse-class.html ）。 如果您想进行复杂的过滤，则应自己完成。

一个解决方案：还注册启动事件：

iterparse(self, source, events=("start", "end",), tag="item")

并知道您何时处于“ item”端，何时处于“ item / url / item”端。

使用Python lxml和Iterparse解析大型XML文件

问题描述

1 个解决方案

解决方案1
4 已采纳 2011-08-25 00:28:23

使用Python lxml和Iterparse解析大型XML文件

问题描述

1 个解决方案

解决方案1 4 已采纳 2011-08-25 00:28:23

解决方案1
4 已采纳 2011-08-25 00:28:23