簡體   English   中英

打印utf-8編碼的字符串

[英]Printing a utf-8 encoded string

我正在使用BeautifulSoup從HTML中提取一些文本,但我無法弄清楚如何將其正確打印到屏幕上(或者就此而言的文件)。

這是我的包含文本的類的樣子:

class Thread(object):
    def __init__(self, title, author, date, content = u""):
        self.title = title
        self.author = author
        self.date = date
        self.content = content
        self.replies = []

    def __unicode__(self):
        s = u""

        for k, v in self.__dict__.items():
            s += u"%s = %s " % (k, v)

        return s

    def __repr__(self):
        return repr(unicode(self))

    __str__ = __repr__

在嘗試打印Thread的實例時,我在控制台上看到的是:

~/python-tests $ python test.py
u'date = 21:01 03/02/11 content =  author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '

無論我嘗試什么,我都無法得到我想要的輸出(上面的文字應該是希伯來語)。 我的最終目標是將Thread序列化為文件(使用json或pickle)並能夠將其讀回。

我在Ubuntu 10.10上使用Python 2.6.6運行它。

要將Unicode字符串輸出到文件(或控制台),您需要選擇文本編碼 在Python中,默認文本編碼是ASCII,但是為了支持希伯來字符,您需要使用不同的編碼,例如UTF-8:

s = unicode(your_object).encode('utf8')
f.write(s)

替換PYTHONIOENCODING=UTF-8的答案是設置環境變量PYTHONIOENCODING=UTF-8

cf。 在Python中通過sys.stdout編寫unicode字符串

(確保在啟動Python之前設置它而不是在腳本中。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM