[英]Splitting Japanese characters in Python
我有一個日語漢字字符列表,這些漢字字符由看起來像逗號的符號分隔。 我想使用拆分功能來獲取存儲在列表中的信息。
如果文字是英語,那么我想以下幾點:
x = 'apple,pear,orange'
x.split(',')
但是,這不適用於以下情況:
japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'
我已將編碼設置為
# -*- coding: utf-8 -*-
並且我能夠很好地閱讀日語字符。
它實際上不是逗號 :
>>> u','
u'\uff0c'
如果您將字符串設為unicode,則可以將其拆分為:
>>> u'東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'.split(u',')
[u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
u'\u30d5\u30b8\u30e4\u5546\u5e97',
u'\u6a4b\u8c37',
u'\u65ed\u8ca9\u58f2',
u'\u6771\u6d0b\u88c5']
Python 3也可以正常工作:
>>> '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'.split(',')
['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋裝']
這對我有用:
for j in japanese.split('\xef\xbc\x8c'): print j
這里的“逗號”是'\\xef\\xbc\\x8c'
。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.