读取字符时python中的UTF-8问题

Question

我正在使用Python 2.5。 这里发生了什么？ 我误解了什么？ 我该如何解决？

in.txt：

Stäckövérfløw

code.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-
print """Content-Type: text/plain; charset="UTF-8"\n"""
f = open('in.txt','r')
for line in f:
    print line
    for i in line:
        print i,
f.close()

输出：

Stäckövérfløw

S t � � c k � � v � � r f l � � w

Answer 1

for i in line:
    print i,

当您读取文件时，您读入的字符串是一个字节字符串。 for循环一次迭代一个字节。 这会导致UTF-8编码字符串出现问题，其中非ASCII字符由多个字节表示。 如果您想使用Unicode对象，其中字符是基本部分，您应该使用

import codecs
f = codecs.open('in', 'r', 'utf8')

如果sys.stdout还没有相应的编码集，则可能需要将其包装起来：

sys.stdout = codecs.getwriter('utf8')(sys.stdout)

Answer 2

请使用codecs.open，它适用于我。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
print """Content-Type: text/plain; charset="UTF-8"\n"""
f = codecs.open('in','r','utf8')
for line in f:
    print line
    for i in line:
        print i,
f.close()

Answer 3

看一下这个：

# -*- coding: utf-8 -*-
import pprint
f = open('unicode.txt','r')
for line in f:
    print line
    pprint.pprint(line)
    for i in line:
        print i,
f.close()

它返回：

堆栈溢出
'圣\\ XC3 \\ xa4ck \\ XC3 \\ xb6v \\ XC3 \\ xa9rfl \\ XC3 \\ xb8w'
S？？ ck？ ？ v？？ rfl？ ？ w ^

问题是文件只是被读作一串字节。 迭代它们会将多字节字符拆分为无意义的字节值。

Answer 4

print c,

添加“空白charrecter”并将正确的utf-8序列分解为不正确的序列。 所以除非你写一个signle字节输出，否则这将不起作用

sys.stdout.write(i)

Answer 5

人们可能想要使用

f = open('in.txt','r')
for line in f:
    print line
    for i in line.decode('utf-8'):
        print i,
f.close()

读取字符时python中的UTF-8问题

问题描述

5 个解决方案

解决方案1
14 已采纳 2009-06-12 07:50:00

解决方案2
2 2009-06-12 07:45:50

解决方案3
1 2009-06-12 07:42:17

解决方案4
1 2009-06-12 07:56:28

解决方案5
0 2013-12-05 11:45:02

读取字符时python中的UTF-8问题

问题描述

5 个解决方案

解决方案1 14 已采纳 2009-06-12 07:50:00

解决方案2 2 2009-06-12 07:45:50

解决方案3 1 2009-06-12 07:42:17

解决方案4 1 2009-06-12 07:56:28

解决方案5 0 2013-12-05 11:45:02

解决方案1
14 已采纳 2009-06-12 07:50:00

解决方案2
2 2009-06-12 07:45:50

解决方案3
1 2009-06-12 07:42:17

解决方案4
1 2009-06-12 07:56:28

解决方案5
0 2013-12-05 11:45:02