Python Pandas：标记数据时出错。 C 错误：读取 1GB CSV 文件时字符串中的 EOF 开始

Question

我正在以 10,000 行的块读取 1 GB CSV 文件。 该文件有 1106012 行和 171 列，其他较小的文件没有显示任何错误并成功完成，但是当我读取这个 1 GB 文件时，它每次都在行号 1106011 上显示错误，这是文件的倒数第二行，我可以手动删除该行，但这不是解决方案，因为我有数百个相同大小的其他文件，我无法手动修复所有行。 任何人都可以帮我解决这个问题。

def extract_csv_to_sql(input_file_name, header_row, size_of_chunk, eachRow):

        df = pd.read_csv(input_file_name,
                         header=None,
                         nrows=size_of_chunk,
                         skiprows=eachRow,
                         low_memory=False,
                         error_bad_lines=False,
                         sep=',')
                         # engine='python'
                         # quoting=csv.QUOTE_NONE
                         # encoding='utf-8'

        df.columns = header_row
        df = df.drop_duplicates(keep='first')
        df = df.apply(lambda x: x.astype(str).str.lower())

        return df

然后我在循环中调用这个函数并且工作得很好。

huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)

我在将多个 csv 文件读取到 HDF5 时读取了这个Pandas ParserError EOF 字符，字符串中的这个read_csv() & EOF 字符导致解析问题，这个https://github.com/pandas-dev/pandas/issues/11654等等尝试包含 read_csv 参数，例如

引擎='蟒蛇'

quoting=csv.QUOTE_NONE // 挂掉甚至python shell，不知道为什么

编码='utf-8'

但没有一个工作，它仍然抛出以下错误

错误：

Traceback (most recent call last):
  File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 115, in <module>
    huge_chunk_return = extract_csv_to_sql(huge_input_filename, huge_header_row, the_size_of_chunk_H, each_Row_H)
  File "C:\Users\WCan\Desktop\wcan_new_python\pandas_test_3.py", line 24, in extract_csv_to_sql
    sep=',')
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 655, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 411, in _read
    data = parser.read(nrows)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1005, in read
    ret = self._engine.read(nrows)
  File "C:\Users\WCan\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\io\parsers.py", line 1748, in read
    data = self._reader.read(nrows)
  File "pandas\_libs\parsers.pyx", line 893, in pandas._libs.parsers.TextReader.read (pandas\_libs\parsers.c:10885)
  File "pandas\_libs\parsers.pyx", line 966, in pandas._libs.parsers.TextReader._read_rows (pandas\_libs\parsers.c:11884)
  File "pandas\_libs\parsers.pyx", line 953, in pandas._libs.parsers.TextReader._tokenize_rows (pandas\_libs\parsers.c:11755)
  File "pandas\_libs\parsers.pyx", line 2184, in pandas._libs.parsers.raise_parser_error (pandas\_libs\parsers.c:28765)
pandas.errors.ParserError: Error tokenizing data. C error: EOF inside string starting at line 1106011
>>>

Answer 1

如果您使用的是 linux，请尝试删除所有不可打印的字符。 尝试在此操作后加载您的文件。

tr -dc '[:print:]\n' < file > newfile

Answer 2

我询问了许多解决方案，其中一些有效，但它影响了使用此解决方案的微积分，它将跳过导致错误的行：

pd.read_csv(file,engine='python', error_bad_lines=False)

#engine='python'提供更好的输出

Python Pandas：标记数据时出错。 C 错误：读取 1GB CSV 文件时字符串中的 EOF 开始

问题描述

2 个解决方案

解决方案1
6 2017-10-19 09:03:51

解决方案2
2 2020-02-18 15:37:18

Python Pandas：标记数据时出错。 C 错误：读取 1GB CSV 文件时字符串中的 EOF 开始

问题描述

2 个解决方案

解决方案1 6 2017-10-19 09:03:51

解决方案2 2 2020-02-18 15:37:18

解决方案1
6 2017-10-19 09:03:51

解决方案2
2 2020-02-18 15:37:18