繁体 English 中英

Pandas.read_csv() 忽略包含 FEWER 字段的坏行/行。文本文件

[英]Pandas.read_csv() ignore bad lines/rows containing FEWER fields. Text file

原文 2020-04-22 03:31:38 9 2 python/ pandas/ text/ read.csv

I am trying to read this huge text file: https://www.dropbox.com/s/3ikikw8bxde6y1i/TCAD_SPECIAL%20EXPORT_2019_20200409.zip?dl=0 (if you download the zip, the file is Special_ARB.txt (not necessary for我的问题imo）。

我正在运行此代码（添加error_bad_lines=False ）以忽略具有超出预期字段的行，效果很好：

pd.read_csv(r'~/Special_ARB.txt', sep="|", 
            header=None,encoding='cp1252',error_bad_lines=False)

问题是当一行只有一个字段时read.csv()崩溃了。 出现以下错误：

指定的列太多：预期为 77，但找到 1

有没有办法告诉 python/pandas 忽略这个错误？ 它没有让我知道它是哪条线。 有超过一百万行，所以我不能自己找到它。

我尝试了一个 for 循环逐行读取并从那里弄清楚，但是数据太大以至于 python 崩溃了。
列数为 77，在运行代码时由 pandas 正确识别，我认为这不是问题。

谢谢，

2 个解决方案

错误和异常
Python 尝试除

try:
   pd.read_csv(r'~/Special_ARB.txt', sep="|", header=None,encoding='cp1252',error_bad_lines=False)
except <your error description>:
   <do this>

这应该适用于内存数据集，您可以将分块用于大型数据集的解决方案： https://stackoverflow.com/a/59331754/9379924

串联Pandas.read_csv中的行

[英]concatenate rows in Pandas.read_csv

使pandas.read_csv（）在csv文件的开头忽略垃圾？

[英]Make pandas.read_csv() ignore junk at the start of the csv files?

pandas.read_csv写入文件

[英]pandas.read_csv writes out to file

CSV文件包含带括号的列（偶尔带逗号）的崩溃pandas.read_csv

[英]CSV file containing column with occasional comma in parentheses crashes pandas.read_csv

使用pandas.read_csv读取文件名中包含str（）的文件

[英]Use pandas.read_csv to read files containing str() in file's name

Python，大型csv文件上的pandas.read_csv，具有来自Google云端硬盘文件的1000万行

[英]Python, pandas.read_csv on large csv file with 10 Million rows from Google Drive file

使用pandas.read_csv时忽略无关的逗号

[英]Ignore extraneous commas when using pandas.read_csv

如何使用 pandas.read_csv 读取字段

[英]How to read fields using pandas.read_csv

pandas.read_csv 在带有额外列的坏行上不会出错

[英]pandas.read_csv not erroring on a bad line with extra columns

Pandas.read_csv 带有多个分隔符用于行和列

[英]Pandas.read_csv with multiple delimiters for lines and versus columns

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 串联Pandas.read_csv中的行使pandas.read_csv（）在csv文件的开头忽略垃圾？ pandas.read_csv写入文件 CSV文件包含带括号的列（偶尔带逗号）的崩溃pandas.read_csv 使用pandas.read_csv读取文件名中包含str（）的文件 Python，大型csv文件上的pandas.read_csv，具有来自Google云端硬盘文件的1000万行使用pandas.read_csv时忽略无关的逗号如何使用 pandas.read_csv 读取字段 pandas.read_csv 在带有额外列的坏行上不会出错 Pandas.read_csv 带有多个分隔符用于行和列

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM