格式错误的CSV文件和Pandas read_csv由块

Question

我有一个csv文件：22 Go大小，46000000行来节省内存，csvfile被chunk读取和处理。

tp = pd.read_csv(f_in, sep=',', chunksize=1000, encoding='utf-8',quotechar='"') 
for chunk in tp: 
   chunk;

但该文件格式错误并引发异常：

Error tokenizing data. C error: Expected 87 fields in line 15092657, saw 162

有没有办法丢弃这个块并继续下一个块的循环？

Answer 1

问题类似于之前在此处发现的问题： Python Pandas Error数据标记

正如在答案中所说，您必须知道使用error_bad_lines = False会删除该行并建议更好的方法是调查数据集中的行。

Answer 2

正如EdChum所说，问题是如何跳过块，并添加'error_bad_lines = False'就可以了。 有没有办法拦截痕迹给出坏线并计算错误线？

Answer 3

为了拦截坏线，我使用以下代码：

# somewhere to store output
err = StringIO.StringIO()
# save a reference to real stderr so we can restore later
oldstderr = sys.stderr
# set stderr to our StringIO instance
sys.stderr = err

tp = pd.read_csv(f_in, sep=',', chunksize=1000, encoding='utf-8',quotechar='"', error_bad_lines=False) 
for chunk in tp:
      chunk

# restore stderr 
sys.stderr = oldstderr

# print(or use) the stored value from previous print
print err.len + 'lines skipped.'
print err.getvalue()
err.close()

格式错误的CSV文件和Pandas read_csv由块

问题描述

3 个解决方案

解决方案1
1 2014-12-17 18:00:40

解决方案2
1 2014-12-17 22:31:47

解决方案3
1 2014-12-18 15:58:45

格式错误的CSV文件和Pandas read_csv由块

问题描述

3 个解决方案

解决方案1 1 2014-12-17 18:00:40

解决方案2 1 2014-12-17 22:31:47

解决方案3 1 2014-12-18 15:58:45

解决方案1
1 2014-12-17 18:00:40

解决方案2
1 2014-12-17 22:31:47

解决方案3
1 2014-12-18 15:58:45