Python字母重复替换Unicode字符串

Question

我需要在字符串中替换两个输入错误的字母，例如“bbig”。 但它只适用于拉丁字母，而不适用于西里尔字母。 我在Centos Linux下使用Python 2.6.6版。

#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
def reg(item):
  item = re.sub(r'([A-ZА-ЯЁЄЇІ])\1', r'\1', item, re.U)
  #this work only with latin too
  #item = re.sub(r'(.)\1', r'\1', item, re.U)
  return item

print reg('ББООЛЛЬЬШШООЙЙ')
print reg('BBIIGG')

上面的代码返回：

ББООЛЛЬЬШШООЙЙ
大

我做错了什么？ 谢谢你的帮助。

Answer 1

您正在使用字节字符串。 这使得您使用的所有内容都匹配并替换字节。 如果你想匹配和替换字母，这将不起作用。

改为使用unicode字符串：

#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
def reg(item):
  item = re.sub(ur'([A-ZА-ЯЁЄЇІ])\1', r'\1', item, re.U)
  #this work only with latin too
  #item = re.sub(r'(.)\1', r'\1', item, re.U)
  return item

print reg(u'ББООЛЛЬЬШШООЙЙ')
print reg(u'BBIIGG')

请注意，这适用于预先组合的字符，但使用组合标记组成的字符将会平滑。

如果用户试图输入这个句子（提示：检查它的第二个单词），那也将是灾难性的。

Python字母重复替换Unicode字符串

问题描述

1 个解决方案

解决方案1
2 已采纳 2013-05-24 13:26:15

Python字母重复替换Unicode字符串

问题描述

1 个解决方案

解决方案1 2 已采纳 2013-05-24 13:26:15

解决方案1
2 已采纳 2013-05-24 13:26:15