繁体   English   中英

熊猫数据框中两列之间的模糊匹配

[英]Fuzzy Matching between 2 columns in pandas dataframe

我有一个包含两列名称的 Excel 文件。 我需要比较两列(并排)并在另一列中给出一个模糊分数。

知道怎么做吗?

您可以使用 fuzzywuzzy 模块计算同一行上两个项目之间的模糊分数,然后迭代这些行。 或者,如果您的数据集很长,这可能会被矢量化。 下面的链接让我上周开始使用模糊模糊: https ://marcobonzanini.com/2015/02/25/fuzzy-string-matching-in-python/

Python 解决方案:我已经使用并行处理在 Python 中实现了代码,这将比串行计算快得多。 此外,在模糊度量分数超过阈值的情况下,只有那些计算是并行执行的。 请参阅以下链接以获取代码:

https://github.com/ankitcoder123/Important-Python-Codes/blob/main/Faster%20Fuzzy%20Match%20between%20two%20columns/Fuzzy_match.py

版本兼容性:

pandas version :: 1.1.5 ,
fuzzywuzzy version :: 1.1.0 ,
joblib version :: 0.18.0

Fuzzywuzzy 度量解释: 链接文本

代码输出: 在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM