將字符從非“ utf-8”特征文件轉換為python中的英語對等

Question

我的文件中包含以下行：

M  Aad                                  4                                             $
M  Aadam                                          1                                   $
F  Aadje                                1                                             $
M  Ådne                      +                 1                                      $

當我運行以下代碼時；

#!/usr/bin/python
# -*- coding: utf-8 -*-

import csv, unicodedata, urllib
from unidecode import unidecode
from textblob import TextBlob

with open('names.csv', 'rb') as f:
    reader = csv.reader(f)
    my_list = list(reader)

for a in range(len(my_list)):
        name = my_list[a][0]
        name = unicode(name,'ISO-8859-15')
        print name

我在某些行上得到這樣的輸出：

F  <Z^>ydr<edeg>                                      1                                 $

在這種情況下，stackoverflow也有許多類似的問題，但是它們的解決方案不適合我的問題。

我該如何解決這個問題？

Answer 1

聽起來您的輸入實際上不是UTF-8，似乎是ISO-8859-*（可能是ISO-8859-15或ISO-8859-1），0xC5是Å的ISO編碼（UTF-8編碼會是0xC3 0xA5）。

將字符從非“ utf-8”特征文件轉換為python中的英語對等

問題描述

1 個解決方案

解決方案1
2 已采納 2016-01-14 12:53:09

將字符從非“ utf-8”特征文件轉換為python中的英語對等

問題描述

1 個解決方案

解決方案1 2 已采納 2016-01-14 12:53:09

解決方案1
2 已采納 2016-01-14 12:53:09