繁体   English   中英

熊猫中的MemoryError read_csv

[英]MemoryError in pandas read_csv

我有文件1.csv,该文件具有5 gb的内存。 而且我有删除重复项的熊猫建议。 但是每次我运行脚本时,都会出现内存错误。

我尝试对大文件进行分块,但它只能部分读取文件。 我需要从整个文件中删除重复项。

import pandas as pd

df = pd.read_csv('1.csv',na_filter=False)
df = df.drop_duplicates(['job_title','industry','state','company_name'])

df.to_csv('2.csv',index=False,encoding='utf-8')

我希望得到2.csv文件,但是我得到了

在pandas._libs.parsers.TextReader.read中,文件“ pandas_libs \\ parsers.pyx”,行876
在pandas._libs.parsers.TextReader._read_low_memory中,文件“ pandas_libs \\ parsers.pyx”,第919行。 在pandas._libs.parsers._concatenate_chunks MemoryError中的文件“ pandas_libs \\ parsers.pyx”,行2141

如果您使用bash并需要快速修复,则可以使用以下命令,其中[行号]是您希望每个文件具有的行数

split -l [line number] file.csv 

然后再加入文件

cat file1.csv <(tail +2 file2.csv) > out.csv

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM