簡體   English   中英

在Python中分割日文字符

[英]Splitting Japanese characters in Python

我有一個日語漢字字符列表,這些漢字字符由看起來像逗號的符號分隔。 我想使用拆分功能來獲取存儲在列表中的信息。

如果文字是英語,那么我想以下幾點:

x = 'apple,pear,orange'
x.split(',')

但是,這不適用於以下情況:

japanese = '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'

我已將編碼設置為

# -*- coding: utf-8 -*-

並且我能夠很好地閱讀日語字符。

它實際上不是逗號

>>> u','
    u'\uff0c'

如果您將字符串設為unicode,則可以將其拆分為:

>>> u'東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'.split(u',')
    [u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
 u'\u30d5\u30b8\u30e4\u5546\u5e97',
 u'\u6a4b\u8c37',
 u'\u65ed\u8ca9\u58f2',
 u'\u6771\u6d0b\u88c5']

Python 3也可以正常工作:

>>> '東北カネカ売,フジヤ商店,橋谷,旭販売,東洋裝'.split(',')
    ['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋裝']

這對我有用:

for j in japanese.split('\xef\xbc\x8c'): print j

這里的“逗號”是'\\xef\\xbc\\x8c'

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM