簡體   English   中英

python中的快速迭代文件讀取

[英]Fast iterative file reading in python

在這里問了一個關於如何將一個非常大的文件讀入 python 的問題,我得到了一個基於 zip_longest 的響應。

問題是這個解決方案非常慢——它需要 keras 的 model.predict >2 小時來處理文件中的 200,000 行,當文件直接加載到內存中時,通常需要 <3 分鍾,我希望能夠處理文件大小的 5 倍。

從那以后,我在 Pandas 中找到了分塊功能,但我不明白如何加載一大塊文件,重塑數據,然后使用這些方法使用它,我也不知道這是否是最快的方法讀取和使用非常大的文件中的數據。

歡迎任何對此問題的快速解決方案。

如果您正在尋找快速執行的迭代 Python 函數,您應該查看itertools包 + 文檔。 我很確定它不會比這快得多。

但請注意 - 如果您忽略任何類型的預處理或重塑 - 在處理大型數據集時您將達到最大性能。 想象一下您的 2e5 行文件只包含一個字符(1 個字節)的信息。 這仍然需要閱讀 200 MB 的信息,這是您可以想象的下限,如果我理解正確的話。 因此,如果您一次性獲得 3 或 4 GB 的信息,您將不得不面對很長的口譯時間。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM