繁体   English   中英

标记数据时出错。 C 错误:pandas python 内存不足,大文件 csv

[英]Error tokenizing data. C error: out of memory pandas python, large file csv

我有一个 3.5 go 的大型 csv 文件,我想使用 Pandas 读取它。

这是我的代码:

import pandas as pd
tp = pd.read_csv('train_2011_2012_2013.csv', sep=';', iterator=True, chunksize=20000000, low_memory = False)
df = pd.concat(tp, ignore_index=True)

我收到此错误:

pandas/parser.pyx in pandas.parser.TextReader.read (pandas/parser.c:8771)()

pandas/parser.pyx in pandas.parser.TextReader._read_rows (pandas/parser.c:9731)()

pandas/parser.pyx in pandas.parser.TextReader._tokenize_rows (pandas/parser.c:9602)()

pandas/parser.pyx in pandas.parser.raise_parser_error (pandas/parser.c:23325)()

CParserError: Error tokenizing data. C error: out of 

我的 ram 的容量是 8 Go。

试试这个兄弟:

mylist = []

for chunk in  pd.read_csv('train_2011_2012_2013.csv', sep=';', chunksize=20000):
    mylist.append(chunk)

big_data = pd.concat(mylist, axis= 0)
del mylist

您可以尝试在调用 csv 文件时设置error_bad_lines = False ,即

import pandas as pd
df = pd.read_csv('my_big_file.csv', error_bad_lines = False)

此错误也可能是由chunksize=20000000引起的。 在我的情况下,减少解决了这个问题。 在 ℕʘʘḆḽḘ 的解决方案中,chunksize 也减少了,这可能已经完成了。

您可以尝试添加参数engine='python 它加载数据的速度较慢,但​​对我的情况有所帮助。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM