![](/img/trans.png)
[英]Python Pandas: read_csv with chunksize and concat still throws MemoryError
[英]MemoryError in pandas read_csv
我有文件1.csv,该文件具有5 gb的内存。 而且我有删除重复项的熊猫建议。 但是每次我运行脚本时,都会出现内存错误。
我尝试对大文件进行分块,但它只能部分读取文件。 我需要从整个文件中删除重复项。
import pandas as pd
df = pd.read_csv('1.csv',na_filter=False)
df = df.drop_duplicates(['job_title','industry','state','company_name'])
df.to_csv('2.csv',index=False,encoding='utf-8')
我希望得到2.csv文件,但是我得到了
在pandas._libs.parsers.TextReader.read中,文件“ pandas_libs \\ parsers.pyx”,行876
在pandas._libs.parsers.TextReader._read_low_memory中,文件“ pandas_libs \\ parsers.pyx”,第919行。 在pandas._libs.parsers._concatenate_chunks MemoryError中的文件“ pandas_libs \\ parsers.pyx”,行2141
如果您使用bash并需要快速修复,则可以使用以下命令,其中[行号]是您希望每个文件具有的行数
split -l [line number] file.csv
然后再加入文件
cat file1.csv <(tail +2 file2.csv) > out.csv
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.