熊猫中的MemoryError read_csv

Question

我有文件1.csv，该文件具有5 gb的内存。 而且我有删除重复项的熊猫建议。 但是每次我运行脚本时，都会出现内存错误。

我尝试对大文件进行分块，但它只能部分读取文件。 我需要从整个文件中删除重复项。

import pandas as pd

df = pd.read_csv('1.csv',na_filter=False)
df = df.drop_duplicates(['job_title','industry','state','company_name'])

df.to_csv('2.csv',index=False,encoding='utf-8')

我希望得到2.csv文件，但是我得到了

在pandas._libs.parsers.TextReader.read中，文件“ pandas_libs \\ parsers.pyx”，行876
在pandas._libs.parsers.TextReader._read_low_memory中，文件“ pandas_libs \\ parsers.pyx”，第919行。 在pandas._libs.parsers._concatenate_chunks MemoryError中的文件“ pandas_libs \\ parsers.pyx”，行2141

Answer 1

如果您使用bash并需要快速修复，则可以使用以下命令，其中[行号]是您希望每个文件具有的行数

split -l [line number] file.csv

然后再加入文件

cat file1.csv <(tail +2 file2.csv) > out.csv

熊猫中的MemoryError read_csv

问题描述

1 个解决方案

解决方案1
0 2019-08-29 18:50:09

熊猫中的MemoryError read_csv

问题描述

1 个解决方案

解决方案1 0 2019-08-29 18:50:09

解决方案1
0 2019-08-29 18:50:09