如何在Python中獲得UTF-16（十進制）？

Question

我有一個表示為U + 1F498的表情符號的Unicode Code Point：

emoticon = u'\U0001f498'

我想得到這個字符的utf-16十進制組，根據這個網站是55357和56472 。

我試圖print emoticon.encode("utf16")但根本沒有幫助我，因為它提供了一些其他角色。

此外，嘗試從UTF-8解碼之前將其編碼為UTF-16，如下所示print str(int("0001F498", 16)).decode("utf-8").encode("utf16")也無濟於事。

如何正確獲取unicode字符的utf-16十進制組？

Answer 1

可以encode與字符utf-16編碼，然后每2個字節的編碼數據的轉換為整數與int.from_bytes （或struct.unpack在python 2）。

Python 3

def utf16_decimals(char, chunk_size=2):
    # encode the character as big-endian utf-16
    encoded_char = char.encode('utf-16-be')

    # convert every `chunk_size` bytes to an integer
    decimals = []
    for i in range(0, len(encoded_char), chunk_size):
        chunk = encoded_char[i:i+chunk_size]
        decimals.append(int.from_bytes(chunk, 'big'))

    return decimals

Python 2 + Python 3

import struct

def utf16_decimals(char):
    # encode the character as big-endian utf-16
    encoded_char = char.encode('utf-16-be')

    # convert every 2 bytes to an integer
    decimals = []
    for i in range(0, len(encoded_char), 2):
        chunk = encoded_char[i:i+2]
        decimals.append(struct.unpack('>H', chunk)[0])

    return decimals

結果：

>>> utf16_decimals(u'\U0001f498')
[55357, 56472]

Answer 2

在Python 2“窄”構建中，它很簡單：

>>> emoticon = u'\U0001f498'
>>> map(ord,emoticon)
[55357, 56472]

這適用於Python 2（窄版和寬版）和Python 3：

from __future__ import print_function
import struct

emoticon = u'\U0001f498'
print(struct.unpack('<2H',emoticon.encode('utf-16le')))

輸出：

(55357, 56472)

這是一個更通用的解決方案，可以為任意長度的字符串打印UTF-16代碼點：

from __future__ import print_function,division
import struct

def utf16words(s):
    encoded = s.encode('utf-16le')
    num_words = len(encoded) // 2
    return struct.unpack('<{}H'.format(num_words),encoded)

emoticon = u'ABC\U0001f498'
print(utf16words(emoticon))

輸出：

(65, 66, 67, 55357, 56472)

如何在Python中獲得UTF-16（十進制）？

問題描述

2 個解決方案

解決方案1
3 2018-09-29 14:51:18

Python 3

Python 2 + Python 3

解決方案2
0 2018-09-30 15:21:17

如何在Python中獲得UTF-16（十進制）？

問題描述

2 個解決方案

解決方案1 3 2018-09-29 14:51:18

Python 3

Python 2 + Python 3

解決方案2 0 2018-09-30 15:21:17

解決方案1
3 2018-09-29 14:51:18

解決方案2
0 2018-09-30 15:21:17