繁体   English   中英

在 Python 3 中读取文件时编码错误?

[英]Wrong encoding when reading file in Python 3?

当我在 python 中读取文件并将其打印到屏幕上时,它无法正确读取某些字符,但是,将这些相同的字符硬编码到变量中打印就好了。 这是一个示例,其中“test.html”包含文本“Hallå”:

with open('test.html','r') as file:
    Str = file.read()
print(Str)
Str = "Hallå"
print(Str)

这将生成以下输出:

hallå
Hallå

我的猜测是文件中的数据在读入 Python 时的解释方式有问题,但是我不确定它是什么,因为 Python 3.8.5 默认情况下已经使用 UTF-8 编码。

功能open默认情况下使用UTF-8。 正如文档所说:

在文本模式下,如果未指定编码,则使用的编码取决于平台: locale.getpreferredencoding(False)以获取当前区域设置编码。

因此,这取决于,并且可以肯定的是,您必须自己指定编码。 如果文件以 UTF-8 格式保存,您应该这样做:

with open('test.html', 'r', encoding='utf-8') as file:

另一方面,不清楚文件是否以 UTF-8 编码保存。 如果不是,您将不得不选择另一个。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM