簡體   English   中英

如何在Python中處理多字節字符串

[英]How to handle multibyte string in Python

PHP中有多字節字符串函數來處理多字節字符串(例如:CJK腳本)。 例如,我想通過在python中使用len函數計算多字節字符串中的字母數,但它返回一個不准確的結果(即此字符串中的字節數)

japanese = "桜の花びらたち"
print japanese
print len(japanese)#return 21 instead of 7

在PHP中是否有像mb_strlen這樣的包或函數?

使用Unicode字符串

# Encoding: UTF-8

japanese = u"桜の花びらたち"
print japanese
print len(japanese)

注意字符串前面的u

要將字節字符串轉換為Unicode,請使用decode"桜の花びらたち".decode('utf-8')

嘗試首先將其轉換為unicode

print len(japanese.decode("utf-8"))

7.您正在使用utf-8編碼的字符串,它實際上有21個字節。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM