簡體 English 中英

python中的快速迭代文件讀取

[英]Fast iterative file reading in python

原文 2020-11-07 15:31:52 5 1 python/ pandas/ dataframe/ memory/ chunking

我在這里問了一個關於如何將一個非常大的文件讀入 python 的問題，我得到了一個基於 zip_longest 的響應。

問題是這個解決方案非常慢——它需要 keras 的 model.predict >2 小時來處理文件中的 200,000 行，當文件直接加載到內存中時，通常需要 <3 分鍾，我希望能夠處理文件大小的 5 倍。

從那以后，我在 Pandas 中找到了分塊功能，但我不明白如何加載一大塊文件，重塑數據，然后使用這些方法使用它，我也不知道這是否是最快的方法讀取和使用非常大的文件中的數據。

歡迎任何對此問題的快速解決方案。

1 個解決方案

如果您正在尋找快速執行的迭代 Python 函數，您應該查看itertools包 + 文檔。 我很確定它不會比這快得多。

但請注意 - 如果您忽略任何類型的預處理或重塑 - 在處理大型數據集時您將達到最大性能。 想象一下您的 2e5 行文件只包含一個字符（1 個字節）的信息。 這仍然需要閱讀 200 MB 的信息，這是您可以想象的下限，如果我理解正確的話。 因此，如果您一次性獲得 3 或 4 GB 的信息，您將不得不面對很長的口譯時間。