“utf-8”编解码器无法解码字节 0x89

Question

我想读取一个 csv 文件并处理一些列，但我一直遇到问题。 遇到以下错误：

Traceback (most recent call last):
  File "C:\Users\Sven\Desktop\Python\read csv.py", line 5, in <module>
    for row in reader:
  File "C:\Python34\lib\codecs.py", line 313, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x89 in position 446: invalid start byte
>>>

我的代码

import csv
with open("c:\\Users\\Sven\\Desktop\\relaties 24112014.csv",newline='', encoding="utf8") as f:
    reader = csv.reader(f,delimiter=';',quotechar='|')
    #print(sum(1 for row in reader))
    for row in reader:
        print(row)
        if row:
            value = row[6]
            value = value.replace('(', '')
            value = value.replace(')', '')
            value = value.replace(' ', '')
            value = value.replace('.', '')
            value = value.replace('0032', '0')
            if len(value) > 0:
                print(value + ' Length: ' + str(len(value)))

我是 Python 的初学者，尝试过谷歌搜索，但很难找到正确的解决方案。

谁能帮我吗？

Answer 1

这是最重要的线索：

无效的起始字节

\\x89不是，如评论中所建议的，是无效的 UTF-8 字节。 它是一个完全有效的连续字节。 意思是如果它遵循正确的字节值，它会正确编码 UTF-8：

http://hexutf8.com/?q=0xc90x89

因此，要么您 (1) 没有您期望的 UTF-8 数据，要么 (2) 您有一些格式错误的 UTF-8 数据。 Python 编解码器只是让您知道它在序列中以错误的顺序遇到了\\x89 。

（更多关于连续字节的信息： http : //en.wikipedia.org/wiki/UTF-8#Codepage_layout ）

Answer 2

.PNG 文件的第一个字节是 0x89 。 并不是说这是您的问题，但是 .PNG 标头是专门设计的，因此不会意外地将其解释为 text 。

我不知道为什么你会有一个实际上是 .png 的 .csv 文件。 但如果有人不小心重命名了文件，这肯定会发生。 在 Windows 10 上，由于其愚蠢的复选框功能，我偶尔会不小心对文件进行批量重命名。 为什么 Microsoft 决定台式机具有与平板电脑相同的 UI 控件是我的好主意……我不知道。

Answer 3

在尝试读取或上传以下类型的文件时，我也遇到了类似的错误：

CSV文件
JPEG文件
PNG文件
压缩文件

避免错误的最佳方法，例如：

“utf-8”编解码器无法解码字节 0x89
“utf-8”编解码器无法解码字节 0xff

是将这些文件作为字节读取。 当您将它们视为字节时，您无需在此处提供任何编码值。 因此，当您打开它们时，您应该指定：

with open(file_path, 'rb') as file:

或者在你的情况下，代码应该是这样的：

import csv

with open("c:\\\\Users\\\\Sven\\\\Desktop\\\\relaties 24112014.csv", newline='', 'rb') as f:

reader = csv.reader(f,delimiter=';',quotechar='|')

“utf-8”编解码器无法解码字节 0x89

问题描述

3 个解决方案

解决方案1
5 2014-12-02 06:01:04

解决方案2
3 2020-09-08 17:06:34

解决方案3
1 2021-12-14 08:16:15

“utf-8”编解码器无法解码字节 0x89

问题描述

3 个解决方案

解决方案1 5 2014-12-02 06:01:04

解决方案2 3 2020-09-08 17:06:34

解决方案3 1 2021-12-14 08:16:15

解决方案1
5 2014-12-02 06:01:04

解决方案2
3 2020-09-08 17:06:34

解决方案3
1 2021-12-14 08:16:15