在Python中分割日文字符

Question

我有一個日語漢字字符列表，這些漢字字符由看起來像逗號的符號分隔。 我想使用拆分功能來獲取存儲在列表中的信息。

如果文字是英語，那么我想以下幾點：

x = 'apple,pear,orange'
x.split(',')

但是，這不適用於以下情況：

japanese = '東北カネカ売，フジヤ商店，橋谷，旭販売，東洋裝'

我已將編碼設置為

# -*- coding: utf-8 -*-

並且我能夠很好地閱讀日語字符。

Answer 1

它實際上不是逗號：

>>> u'，'
    u'\uff0c'

如果您將字符串設為unicode，則可以將其拆分為：

>>> u'東北カネカ売，フジヤ商店，橋谷，旭販売，東洋裝'.split(u'，')
    [u'\u6771\u5317\u30ab\u30cd\u30ab\u58f2',
 u'\u30d5\u30b8\u30e4\u5546\u5e97',
 u'\u6a4b\u8c37',
 u'\u65ed\u8ca9\u58f2',
 u'\u6771\u6d0b\u88c5']

Python 3也可以正常工作：

>>> '東北カネカ売，フジヤ商店，橋谷，旭販売，東洋裝'.split('，')
    ['東北カネカ売', 'フジヤ商店', '橋谷', '旭販売', '東洋裝']

Answer 2

這對我有用：

for j in japanese.split('\xef\xbc\x8c'): print j

這里的“逗號”是'\\xef\\xbc\\x8c' 。

在Python中分割日文字符

問題描述

2 個解決方案

解決方案1
3 2013-03-30 04:15:03

解決方案2
1 2013-03-30 04:18:36

在Python中分割日文字符

問題描述

2 個解決方案

解決方案1 3 2013-03-30 04:15:03

解決方案2 1 2013-03-30 04:18:36

解決方案1
3 2013-03-30 04:15:03

解決方案2
1 2013-03-30 04:18:36