繁体 English 中英

在python中更改和解析大型XML文件的内存有效方式

[英]memory efficient way to change and parse a large XML file in python

原文 2015-04-24 17:33:18 9 1 python/ xml/ parsing/ sax/ elementtree

我想用python解析大型XML文件（25 GB），并更改其某些元素。

我从xml.etree中尝试了ElementTree，但是第一步（ElementTree.parse）花费了太多时间。

我在某处读到SAX很快，并且没有将整个文件加载到内存中，但这只是为了解析而不是修改。

“ iterparse”也应仅用于解析而不是修改。

还有其他快速且高效存储的选择吗？

1 个解决方案

对您而言重要的是，您需要一个流解析器，即sax。 （在python中有一个内置的sax实现，而lxml提供了一个。）问题在于，由于您试图修改xml文件，因此您在阅读时必须重写xml文件。

XML文件是一个文本文件，您不能在不重写整个文本文件的情况下去更改文本文件中间的某些数据（除非数据大小完全相同，这是不可能的）

您可以使用SAX读取每个元素，并注册一个事件以在读取和修改每个元素后写回。 如果您所做的更改确实很简单，那么甚至不用理会XML解析，只需匹配文本即可找到所需的内容，甚至更快。

如果您正在使用如此大的XML文件进行任何重要的工作，那么我会说您不应该使用XML文件，而应该使用数据库。

您在这里遇到的问题与大型机上的Cobol程序员使用基于文件的数据时遇到的问题相同

使用Python解析大型journalctl文件以匹配关键字的有效方法

[英]Efficient way to parse large journalctl file to match keywords using Python

在Python中搜索大型XML文件的更有效方法

[英]More efficient way to search large XML file in Python

尝试在Python中解析大型xml文件-内存错误

[英]Trying to parse large xml file in Python - Memory Errors

在python中解析大型.csv的最有效方法？

[英]Most efficient way to parse a large .csv in python?

更少的 memory 密集方式来解析 Python 中的大型 JSON 文件

[英]Less memory intensive way to parse large JSON file in Python

用 Python 解析大型 XML 文件

[英]Parse large XML file in Python

以高效快速的方式解析大型 XML 文件并在 Python 中提取嵌套元素

[英]Parse large XML files and extract nested elements in Python in efficient and fast way

是否有更有效的方法将 XML 解析为具有 python 的数据库？

[英]Is there a more efficient way to parse XML to a database with python?

导入大型数据文件的有效方法，Python

[英]Efficient way to import large data file, Python

在 python 中读取大 txt 文件的有效方法

[英]Efficient way of reading large txt file in python

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用Python解析大型journalctl文件以匹配关键字的有效方法在Python中搜索大型XML文件的更有效方法尝试在Python中解析大型xml文件-内存错误在python中解析大型.csv的最有效方法？更少的 memory 密集方式来解析 Python 中的大型 JSON 文件用 Python 解析大型 XML 文件以高效快速的方式解析大型 XML 文件并在 Python 中提取嵌套元素是否有更有效的方法将 XML 解析为具有 python 的数据库？导入大型数据文件的有效方法，Python 在 python 中读取大 txt 文件的有效方法

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM