[英]converting characters from non “utf-8” characterized file to english equivilances in python
我的文件中包含以下行:
M Aad 4 $
M Aadam 1 $
F Aadje 1 $
M Ådne + 1 $
當我運行以下代碼時;
#!/usr/bin/python
# -*- coding: utf-8 -*-
import csv, unicodedata, urllib
from unidecode import unidecode
from textblob import TextBlob
with open('names.csv', 'rb') as f:
reader = csv.reader(f)
my_list = list(reader)
for a in range(len(my_list)):
name = my_list[a][0]
name = unicode(name,'ISO-8859-15')
print name
我在某些行上得到這樣的輸出:
F <Z^>ydr<edeg> 1 $
在這種情況下,stackoverflow也有許多類似的問題,但是它們的解決方案不適合我的問題。
我該如何解決這個問題?
聽起來您的輸入實際上不是UTF-8,似乎是ISO-8859-*(可能是ISO-8859-15或ISO-8859-1),0xC5是Å的ISO編碼(UTF-8編碼會是0xC3 0xA5)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.