提高numpy中levenshtein距离的性能

Question

我有以下功能：

def levenshtein(seq1, seq2):
    size_x = len(seq1) + 1
    size_y = len(seq2) + 1
    matrix = np.zeros ((size_x, size_y))
    matrix[: , 0] = np.arange(size_x)
    matrix[0, :] = np.arange(size_y)

    for x in range(1, size_x):
        for y in range(1, size_y):
            if seq1[x-1] == seq2[y-1]:
                matrix [x,y] = min(
                    matrix[x-1, y] + 1,
                    matrix[x-1, y-1],
                    matrix[x, y-1] + 1
                )
            else:
                matrix [x,y] = min(
                    matrix[x-1,y] + 1,
                    matrix[x-1,y-1] + 1,
                    matrix[x,y-1] + 1
                )
    return (matrix[size_x - 1, size_y - 1])

我想将它应用于多对字符串，为了尽快完成我想删除其中的 for 循环并用一些向量化替换它们，但我找不到一个好的方法来做到这一点，有任何想法吗？

Answer 1

对我来说，最好使用已经写好的 python mudule来解决你的问题，而不是重新发明轮子。 你会节省很多时间。

打开cmd并编写pip install python-Levenshtein ，或者如果您使用 git 转到您的项目文件夹并键入git clone https://github.com/ztane/python-Levenshtein.git链接）。 然后一个 python 文件和：

import Levenshtein
Levenshtein.distance('Levenshtein', 'Lenvinsten')
# output will be 4
# ... your code ...

但是，如果您需要手动编写它，您可以在同一链接中查看其他开发人员如何编写或使用 Levenshtein 模块的示例。

提高numpy中levenshtein距离的性能

问题描述

1 个解决方案

解决方案1
1 已采纳

提高numpy中levenshtein距离的性能

问题描述

1 个解决方案

解决方案1 1 已采纳

解决方案1
1 已采纳