[英]json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)
[英]Is "utf-8-sig" suitable for decoding both UTF-8 and UTF-8 BOM?
我正在使用 Python CSV 库读取两个 CSV 文件。
一个是用UTF-8-BOM编码的,另一个是用UTF-8编码的。在我的实践中,我发现这两个文件都可以使用“utf-8-sig”作为编码类型来读取:
from csv import reader
with open(file_path, encoding='utf-8-sig') as csv_file:
c_reader = reader(csv_file, delimiter=',')
headers = next(c_reader)
for row in c_reader:
print(row)
我想确认一下,“utf-8-sig”是否适合解码 UTF-8 和 UTF-8 BOM? 我正在使用 Python 版本 3.6 和 3.7。 感谢您的回答!
utf-8-sig 编解码器将解码 utf-8-sig 编码的文本和使用标准 utf-8 编码的文本
>>> s = 'Straße'
>>> utf8_sig = s.encode('utf-8-sig')
>>> utf8 = s.encode('utf')
>>> print(utf8_sig.decode('utf-8-sig'))
Straße
>>> print(utf8.decode('utf-8-sig'))
Straße
从编解码器文档:
在将 Unicode 个字符中的任何一个写入文件之前,将写入一个 UTF-8 编码的 BOM(看起来像这样的字节序列:0xef、0xbb、0xbf)...在解码 utf-8-sig 时将跳过这三个字节,如果它们显示为文件中的前三个字节。
utf-8-sig 编码在 Windows 环境中最常见。 如果您在 mac 或 *nix 系统上与用户共享文件,标准 utf-8 编码是他们希望收到的。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.