Python中的Levenshtein距离-国家字符错误的结果

Question

我发现了类似的主题：变音符号上的Levenshtein距离，但这是PHP，我用Python编写。 但是，问题仍然相同。 例如：levenshtein（kot，kod）= 1 levenshtein（się，sie）= 2，这是错误的。 关于如何解决这个问题的任何想法？

Answer 1

首先，您必须确保字符串都使用unicode。 对于Python 3，您将自动具有该功能，但是在Python 2中，您必须首先将字符串解码为unicode类型。 例如，如果您知道控制台中的编码为UTF-8，则为sys.argv[1].decode('utf-8') 。 您可以尝试使用sys.stdin.encoding猜测这种编码。

之后，您可能必须规范化unicode。 例如，unicode字符串u'\Ç'和u'\C\̧'具有相同的表示形式Ç，但是它们将被比较为不相等，并且将具有非零的levenshtein距离。 要规范化字符串，可以使用unicodedata.normalize函数。

Python 2中的脚本可能看起来像这样：

import unicodedata
import sys
# import or define your levenshtein function here

def decode_and_normalize(s):
    return unicodedata.normalize('NFKC', s.decode('utf-8'))

s1 = decode_and_normalize(sys.argv[1])
s2 = decode_and_normalize(sys.argv[2])
print levenshtein(s1, s2)

毕竟，如果字符不在Basic Multilingual Plane之外，您仍然可能会遇到问题。 关于这个问题，请看这个stackoverlow问题。

Python中的Levenshtein距离-国家字符错误的结果

问题描述

1 个解决方案

解决方案1
0 2015-03-24 23:22:22

Python中的Levenshtein距离-国家字符错误的结果

问题描述

1 个解决方案

解决方案1 0 2015-03-24 23:22:22

解决方案1
0 2015-03-24 23:22:22