[英]How to handle multibyte string in Python
PHP中有多字節字符串函數來處理多字節字符串(例如:CJK腳本)。 例如,我想通過在python中使用len
函數計算多字節字符串中的字母數,但它返回一個不准確的結果(即此字符串中的字節數)
japanese = "桜の花びらたち"
print japanese
print len(japanese)#return 21 instead of 7
在PHP中是否有像mb_strlen這樣的包或函數?
使用Unicode字符串 :
# Encoding: UTF-8
japanese = u"桜の花びらたち"
print japanese
print len(japanese)
注意字符串前面的u
。
要將字節字符串轉換為Unicode,請使用decode
: "桜の花びらたち".decode('utf-8')
嘗試首先將其轉換為unicode
:
print len(japanese.decode("utf-8"))
7.您正在使用utf-8編碼的字符串,它實際上有21個字節。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.