[英]Fuzzy Matching between 2 columns in pandas dataframe
我有一个包含两列名称的 Excel 文件。 我需要比较两列(并排)并在另一列中给出一个模糊分数。
知道怎么做吗?
您可以使用 fuzzywuzzy 模块计算同一行上两个项目之间的模糊分数,然后迭代这些行。 或者,如果您的数据集很长,这可能会被矢量化。 下面的链接让我上周开始使用模糊模糊: https ://marcobonzanini.com/2015/02/25/fuzzy-string-matching-in-python/
Python 解决方案:我已经使用并行处理在 Python 中实现了代码,这将比串行计算快得多。 此外,在模糊度量分数超过阈值的情况下,只有那些计算是并行执行的。 请参阅以下链接以获取代码:
版本兼容性:
pandas version :: 1.1.5 ,
fuzzywuzzy version :: 1.1.0 ,
joblib version :: 0.18.0
Fuzzywuzzy 度量解释: 链接文本
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.