Python Pandas：帶有 chunksize 和 concat 的 read_csv 仍然拋出 MemoryError

Question

我正在嘗試根據條件（列的值（地理 = 安大略））從 10GB ~3500 萬行 csv 文件中提取某些行到新的 csv 中。 它運行了幾分鍾，我可以看到我的可用硬盤空間從 14GB 耗盡到基本上為零，然后出現 MemoryError。 我認為 chunksize 在這里會有所幫助，但它沒有:(請告知。

import pandas as pd
df = pd.read_csv("Data.csv", chunksize = 10000)
result = pd.concat(df)
output=result[result['Geography']=='Ontario']
rowcount=len(output)
print(output)
print(rowcount)
output.to_csv('data2.csv')

Answer 1

你可以試着分塊寫。 大致：

df = pd.read_csv("Data.csv", chunksize = 10000)
header = True
for chunk in df:
    chunk=chunk[chunk['Geography']=='Ontario']
    chunk.to_csv(outfilename, header=header, mode='a')
    header = False

想法來自這里。

Python Pandas：帶有 chunksize 和 concat 的 read_csv 仍然拋出 MemoryError

問題描述

1 個解決方案

解決方案1
1 已采納 2022-07-11 00:46:55

Python Pandas：帶有 chunksize 和 concat 的 read_csv 仍然拋出 MemoryError

問題描述

1 個解決方案

解決方案1 1 已采納 2022-07-11 00:46:55

解決方案1
1 已采納 2022-07-11 00:46:55