將字符串編碼為unicode

Question

我只是在玩我遵循的unicode

s='ab'

s.encode('utf8')
Out[44]: b'ab'

s.encode('utf16')
Out[45]: b'\xff\xfea\x00b\x00'

s.encode('utf32')
Out[46]: b'\xff\xfe\x00\x00a\x00\x00\x00b\x00\x00\x00'

我的問題是為什么utf-8僅返回字符串，而其他編碼返回正確的輸出？ 第一種編碼utf-8是否應該返回像utf-16和utf-32這樣的字節編碼？

Answer 1

標准ascii字符以utf-8編碼。 您的utf-8編碼正確。 這是utf-8的優點之一。

Answer 2

我期待像b'\\ x .. \\ x ..

b'ab'
b'\xff\xfea\x00b\x00'
b'\xff\xfe\x00\x00a\x00\x00\x00b\x00\x00\x00'

是每個字節序列的最簡單的Python表示形式。 從字面上看， a和b被包含在表示中，因為這是更短，更易讀的選項； 字節\\x00不會執行相同的操作，因為這是一個不可見的控制字符。

盡管如此，您當然也可以寫a和b ，因為如果您願意的話， \\x也會轉義，導致字面量完全相等：

b'\x61\x62'
b'\xff\xfe\x61\x00\x62\x00'
b'\xff\xfe\x00\x00\x61\x00\x00\x00\x62\x00\x00\x00'

UTF-8的優勢和特定的設計目標是將無格式舊ASCII字符編碼為單個字節，而無需任何額外的空字節或BOM信號。

將字符串編碼為unicode

問題描述

2 個解決方案

解決方案1
1 2015-12-25 23:11:07

解決方案2
1 已采納 2015-12-25 23:17:34

將字符串編碼為unicode

問題描述

2 個解決方案

解決方案1 1 2015-12-25 23:11:07

解決方案2 1 已采納 2015-12-25 23:17:34

解決方案1
1 2015-12-25 23:11:07

解決方案2
1 已采納 2015-12-25 23:17:34