繁体 English 中英

python中的快速迭代文件读取

[英]Fast iterative file reading in python

原文 2020-11-07 15:31:52 5 1 python/ pandas/ dataframe/ memory/ chunking

我在这里问了一个关于如何将一个非常大的文件读入 python 的问题，我得到了一个基于 zip_longest 的响应。

问题是这个解决方案非常慢——它需要 keras 的 model.predict >2 小时来处理文件中的 200,000 行，当文件直接加载到内存中时，通常需要 <3 分钟，我希望能够处理文件大小的 5 倍。

从那以后，我在 Pandas 中找到了分块功能，但我不明白如何加载一大块文件，重塑数据，然后使用这些方法使用它，我也不知道这是否是最快的方法读取和使用非常大的文件中的数据。

欢迎任何对此问题的快速解决方案。

1 个解决方案

如果您正在寻找快速执行的迭代 Python 函数，您应该查看itertools包 + 文档。 我很确定它不会比这快得多。

但请注意 - 如果您忽略任何类型的预处理或重塑 - 在处理大型数据集时您将达到最大性能。 想象一下您的 2e5 行文件只包含一个字符（1 个字节）的信息。 这仍然需要阅读 200 MB 的信息，这是您可以想象的下限，如果我理解正确的话。 因此，如果您一次性获得 3 或 4 GB 的信息，您将不得不面对很长的口译时间。