赏金将在 3 天后到期。 此问题的答案有资格获得+50声望赏金。 illuminato正在寻找规范的答案。 我有以下相似性评分代码: 如果这些名称属于一个集群编号,我想在name列中识别相似的名称,并为它们创建唯一的 ID。 例如, South Beach和Beach属于1号聚类,它们的相似度得 ...
赏金将在 3 天后到期。 此问题的答案有资格获得+50声望赏金。 illuminato正在寻找规范的答案。 我有以下相似性评分代码: 如果这些名称属于一个集群编号,我想在name列中识别相似的名称,并为它们创建唯一的 ID。 例如, South Beach和Beach属于1号聚类,它们的相似度得 ...
我在下面有一个脚本,用于检查我的 dataframe 中的一列地址与另一个 dataframe 中的一列地址的准确性,以查看它们是否匹配以及它们匹配的程度。 我正在使用快速模糊,我听说它比 fuzzywuzzy 更快。 但是匹配和计算仍然需要很长时间。 这是 CSV 个文件。 main_data ...
我有一个 csv 文件,如下所示: 现在我想计算每对名字的 Levenshtein 距离。 因此,将“John Doe”与“John Doe”进行比较,并将其放入一个新列中。 然后对“Mike Johnson”和“Mike Jonson”进行下一个比较。 所以输出如下: 我试过了(请参阅如何 ...
我想在包含 200,000 个元素的列表上运行这篇文章中提到的这段 rapidfuzz 代码。 我想知道优化它以在 GPU 上更快运行的最佳方法是什么? 在具有匹配字符串值及其计数的列表中查找模糊匹配字符串 预期产出 - ...
我有 4 列,分别是 BuisnessID、Name、BuisnessID_y、Name_y,我想将 Name 与 Name_y 相匹配,相似度为 90%,如果不是 90%,则删除这些行。 样本输入 df 我是 python 的新手,不知道该怎么做。 另外,我有 50 万条记录,所以任何其他快速模 ...
所以我希望修改此代码以减少 Fuzzywuzzy 库的运行时间。 目前一个800行的数据集大概需要一个小时,我在4.5K行的数据集上用这个,运行了将近6个小时,还是没有结果。 我不得不停止内核。 我需要在至少 20K 的数据上使用此代码。 任何人都可以建议对此代码进行任何编辑以更快地获得结果吗? ...
这是我的 dataframe: 我想用这段代码添加列名“距离”: 它产生了这个: 当我使用 df['distance'].describe() 检查时,结果 df['distance'] 完全一样。 有谁能够帮我? ...
对此非常陌生,将不胜感激关于以下方面的任何建议: 我有一个数据集“项目”,显示了具有项目 ID 的机构列表: 我想模糊匹配将其与以下“大学”及其国家/地区代码的数据集合并: 回到这个: 使用快速模糊: 我得到了这个(在匹配栏中有一些额外的文本,但现在不会进入)。 这几乎是我想要的, ...
我正在使用 fuzzywuzzy 和 rapidfuzz 来查找评论中提到的名字。 我通读了“token_set_ratio”function 的文档,但我仍然不明白以下内容: Jonathan Smith 只有一个拼写错误,为什么比率这么低? 此外,有没有办法克服这个问题,让乔纳森获得更高的分 ...