从 dataframe 中删除相似的字符串重复项

Question

I have df which currently looks something like this:我有 df 目前看起来像这样：

Car Name      Number
Adam Leaf     9
Adamm Leaf    9
Adam Lea      NaN
Adam-Leaf     NaN
Adam/Leaf     9
Claire-Green  NaN
Cliare Green  3
Claire Green  3
Claire Gren   NaN
Claire/Green  3

I am trying to remove the variations to achieve something like this我正在尝试删除变化以实现这样的目标

Car Name      Number
Adam Leaf     9
Claire Green  3

Answer 1

here is one way from jellyfish这是jellyfish的一种方法

import jellyfish

s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
              Car Name  Number
Car Name                      
A354         Adam Leaf     9.0
C462      Claire-Green     3.0

Answer 2

This can be solved via calculating the Levenshtein distance or even better using the FuzzyWuzzy library这可以通过计算 Levenshtein 距离甚至更好地使用 FuzzyWuzzy 库来解决

https://www.datacamp.com/community/tutorials/fuzzy-string-python https://www.datacamp.com/community/tutorials/fuzzy-string-python

从 dataframe 中删除相似的字符串重复项

问题描述

2 个解决方案

解决方案1
3 2019-10-17 14:23:22

解决方案2
0 2019-10-18 10:01:29

从 dataframe 中删除相似的字符串重复项

问题描述

2 个解决方案

解决方案1 3 2019-10-17 14:23:22

解决方案2 0 2019-10-18 10:01:29

解决方案1
3 2019-10-17 14:23:22

解决方案2
0 2019-10-18 10:01:29