[英]Pandas - memory error while importing a CSV file of size 4GB
我尝试使用pd.read_csv
导入大小为4GB的csv文件,但收到内存不足错误。 然后尝试使用dask.dataframe
,但无法转换为pandas dataframe
(相同的内存错误)。
import pandas as pd
import dask.dataframe as dd
df = dd.read_csv(#file)
df = df.compute()
然后尝试使用chunksize
参数,但内存错误相同:
import pandas as pd
df = pd.read_csv(#file, chunksize=1000000, low_memory=False)
df = pd.concat(df)
还尝试使用带有列表的chunksize
,同样的错误:
import pandas as pd
list = []
for chunk in pd.read_csv(#file, chunksize=1000000, low_memory=False)
list.append(chunk)
df = pd.concat(list)
尝试:
chunksize
(2000或50000) - 失败(4GB文件的内存错误) 请告诉我如何进一步处理?
我使用python 3.7和RAM 8GB。
我还在一台RAM为128GB的服务器上尝试了尝试3,但仍然存在
memory error
我无法分配
dtype
因为要导入的csv文件可以在不同的时间包含不同的列
我只是想在得到足够的建议后记录我尝试过的内容! 感谢Robin Nemeth和juanpa
正如juanpa指出的那样,当我使用64bit python
可执行文件时,我能够在服务器中读取带有128GB RAM的csv文件(4GB)
正如Robin指出,即使使用64位可执行文件,我也无法在本地机器上读取带有8GB RAM的csv文件(4GB)。
因此,无论我们尝试什么,机器的RAM都与数据帧在内存中的使用一样重要
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.