当文件大小大于40K字节时，为什么csv.reader失败？

Question

我有以下代码：

with open(filename, 'rt') as csvfile:
    csvDictReader = csv.DictReader(csvfile, delimiter=',', quotechar='"')
    for row in csvDictReader:
        print(row)

只要文件大小小于40k字节，该程序就可以正常工作。 当文件大小超过40k时，在尝试读取文件时出现此错误：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa0 in position 7206: invalid start byte

实际的文件内容似乎不是问题，仅是文件本身的大小（40k字节确实很小）。

当文件大小大于40K字节时，总是在包含第32K个字节的行上发生错误。

我有一种感觉，python毫无例外地无法读取超过40K字节的文件，而只是在中间将第32K字节附近截断了文件。 那是对的吗？ 该限制在哪里定义？

Answer 1

您的文件中包含无效的UTF-8数据。 这与csv模块无关，也与文件大小无关。 您的较大文件中包含无效数据，而较小文件中没有。 简单地做：

 with open(filename) as f:
     f.read()

应该会触发相同的错误，这纯粹是遇到无效的UTF-8字节的问题，这表明您的文件不是以UTF-8开头的，或者已经以某种方式损坏了。

如果您的文件实际上是不同的编码（例如latin-1 ， cp1252等； file命令行实用程序可能有助于识别，但是对于许多ASCII超集编码，您只需要知道），请将其作为encoding参数传递给open使用而不是默认的语言环境（在这种情况下为utf-8 ），因此您可以正确解码字节，例如：

    # Also add newline='' to defer newline processing to csv module, where it's part
    # of the CSV dialect
    with open(filename, encoding='latin-1', newline='') as csvfile:
        csvDictReader = csv.DictReader(csvfile, delimiter=',', quotechar='"')
        for row in csvDictReader:
            print(row)

Answer 2

文件大小不是真正的问题，请参见异常：

UnicodeDecodeError：'utf-8'编解码器无法解码位置7206中的字节0xa0：无效的起始字节

您应该首先处理编码问题

with open(filename, 'rt', encoding='utf-8', errors='ignore') as csvfile:

它将忽略编码错误

当文件大小大于40K字节时，为什么csv.reader失败？

问题描述

2 个解决方案

解决方案1
0 已采纳 2018-05-23 23:36:05

解决方案2
0 2018-05-23 23:45:34

当文件大小大于40K字节时，为什么csv.reader失败？

问题描述

2 个解决方案

解决方案1 0 已采纳 2018-05-23 23:36:05

解决方案2 0 2018-05-23 23:45:34

解决方案1
0 已采纳 2018-05-23 23:36:05

解决方案2
0 2018-05-23 23:45:34