繁体   English   中英

使用Pandas中的read_csv读取csv文件中的错误数据

[英]Reading erroneous data form csv file using read_csv from pandas

我正在尝试从一个巨大的csv文件读取数据。 我正在向我显示此错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 13: invalid start byte 有什么方法可以跳过导致引发此异常的行吗? 在数百万行中,这些只是少数几个,我无法手动将其删除。 我尝试添加error_bad_lines = False,但这并不能解决问题。 我正在使用通过Anaconda 4.4.0获得的Python 3.6.1。 如果有帮助,我也使用Mac。 请帮助我,我是新手。

在我看来,您的文件中有些非ASCII字符无法解码。 Pandas接受编码作为read_csv的参数(如果有帮助):

my_file = pd.read_csv('Path/to/file.csv', encoding = 'encoding')

默认编码为“无”,这就是为什么您可能会得到这些错误的原因。 这是标准Python编码的链接 -尝试启动“ ISO-8859-1”(又名“ latin1”)或“ utf8”。

熊猫确实允许您指定在读取csv时要跳过的行,但是您需要知道这些行的索引,在您的情况下这将非常困难。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM