繁体   English   中英

python中的快速迭代文件读取

[英]Fast iterative file reading in python

在这里问了一个关于如何将一个非常大的文件读入 python 的问题,我得到了一个基于 zip_longest 的响应。

问题是这个解决方案非常慢——它需要 keras 的 model.predict >2 小时来处理文件中的 200,000 行,当文件直接加载到内存中时,通常需要 <3 分钟,我希望能够处理文件大小的 5 倍。

从那以后,我在 Pandas 中找到了分块功能,但我不明白如何加载一大块文件,重塑数据,然后使用这些方法使用它,我也不知道这是否是最快的方法读取和使用非常大的文件中的数据。

欢迎任何对此问题的快速解决方案。

如果您正在寻找快速执行的迭代 Python 函数,您应该查看itertools包 + 文档。 我很确定它不会比这快得多。

但请注意 - 如果您忽略任何类型的预处理或重塑 - 在处理大型数据集时您将达到最大性能。 想象一下您的 2e5 行文件只包含一个字符(1 个字节)的信息。 这仍然需要阅读 200 MB 的信息,这是您可以想象的下限,如果我理解正确的话。 因此,如果您一次性获得 3 或 4 GB 的信息,您将不得不面对很长的口译时间。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM