标签[rapidfuzz] - 堆栈内存溢出

如何进行有效的矩阵计算而不会使内存过载以进行相似性评分？ - How to do effective matrix computation and not get memory overload for similarity scoring?

赏金将在 3 天后到期。此问题的答案有资格获得+50声望赏金。 illuminato正在寻找规范的答案。我有以下相似性评分代码：如果这些名称属于一个集群编号，我想在name列中识别相似的名称，并为它们创建唯一的 ID。例如， South Beach和Beach属于1号聚类，它们的相似度得 ...

有没有办法加快大型数据集的两个数据帧之间的匹配地址和每次匹配的置信度？ - Is there a way to speed up matching addresses and level of confidence per match between two data frames for large datasets?

我在下面有一个脚本，用于检查我的 dataframe 中的一列地址与另一个 dataframe 中的一列地址的准确性，以查看它们是否匹配以及它们匹配的程度。我正在使用快速模糊，我听说它比 fuzzywuzzy 更快。但是匹配和计算仍然需要很长时间。这是 CSV 个文件。 main_data ...

将来自 rapidfuzz.distance 的 Levenshtein 距离应用于具有两列的数据框 - Apply Levenshtein distance from rapidfuzz.distance to dataframe with two columns

我有一个 csv 文件，如下所示：现在我想计算每对名字的 Levenshtein 距离。因此，将“John Doe”与“John Doe”进行比较，并将其放入一个新列中。然后对“Mike Johnson”和“Mike Jonson”进行下一个比较。所以输出如下：我试过了（请参阅如何 ...

针对具有大量元素（例如 200,000）的列表优化 RapidFuzz - optimizing RapidFuzz for a list with large number of elements (e.g. 200,000)

我想在包含 200,000 个元素的列表上运行这篇文章中提到的这段 rapidfuzz 代码。我想知道优化它以在 GPU 上更快运行的最佳方法是什么？在具有匹配字符串值及其计数的列表中查找模糊匹配字符串预期产出 - ...

在数据帧上使用 rapidfuzz - Using rapidfuzz on a datafram

我有 4 列，分别是 BuisnessID、Name、BuisnessID_y、Name_y，我想将 Name 与 Name_y 相匹配，相似度为 90%，如果不是 90%，则删除这些行。样本输入 df 我是 python 的新手，不知道该怎么做。另外，我有 50 万条记录，所以任何其他快速模 ...

有没有办法修改此代码以减少运行时间？ - Is there a way to modify this code to reduce run time?

所以我希望修改此代码以减少 Fuzzywuzzy 库的运行时间。目前一个800行的数据集大概需要一个小时，我在4.5K行的数据集上用这个，运行了将近6个小时，还是没有结果。我不得不停止内核。我需要在至少 20K 的数据上使用此代码。任何人都可以建议对此代码进行任何编辑以更快地获得结果吗？ ...

我试图获取两列中两个字符串之间的距离并将结果放在下一个第三列，但为什么它对所有人产生相同的结果？ - I'm trying to get the distance between two strings in two column and put the result on the next 3rd column, but why it yields the same result for all?

这是我的 dataframe：我想用这段代码添加列名“距离”：它产生了这个：当我使用 df['distance'].describe() 检查时，结果 df['distance'] 完全一样。有谁能够帮我？ ...

Rapidfuzz 匹配合并 - Rapidfuzz match merge

对此非常陌生，将不胜感激关于以下方面的任何建议：我有一个数据集“项目”，显示了具有项目 ID 的机构列表：我想模糊匹配将其与以下“大学”及其国家/地区代码的数据集合并：回到这个：使用快速模糊：我得到了这个（在匹配栏中有一些额外的文本，但现在不会进入）。这几乎是我想要的， ...

为什么使用 fuzzywuzzy 的 token set 比率这么低？ - Why is the token set ratio so low using fuzzywuzzy?

我正在使用 fuzzywuzzy 和 rapidfuzz 来查找评论中提到的名字。我通读了“token_set_ratio”function 的文档，但我仍然不明白以下内容： Jonathan Smith 只有一个拼写错误，为什么比率这么低？此外，有没有办法克服这个问题，让乔纳森获得更高的分 ...