[英]Classifier for matching two sets with similar ID strings in Python
我有2組數據,這些數據具有相同的功能集,但其ID名稱使用不同的標簽。
我想看看是否有一個最佳的分類器,可以幫助我根據這些功能選擇最匹配的名稱。
Set 1
看起來像:
Name ID1 code1 move1 year
Highland 1 nc st 2002
Highland 4 nc st 2001
Highland gt3 nc st 2002
Highland gt2 nc st 2003
Mark wt1 ns st 2000
Mark ws1 ns st 1945
Mark ost6 nc ct 2002
Niko 1 ng ct 2000
.
.
Set 2
看起來像:
Name ID2 code2 move2 year
Highland gt1 nc st 2002
Highland gt3 nc st
Highland 2 nc st 2003
Highland gt4 nc st 2001
Mark t1 ns st 2000
Mark s1 nsi st
Mark ost6 nci ct 2002
Niko 1 ngi ct 2000
.
.
如您所見,這兩個集合有一些區別,但Name
始終相同-ID有時幾乎匹配,有時完美匹配。 其他時候, codes
或moves
匹配或接近,有時幾年通常只缺少一組。
我已經計算出fuzzy ratios
,這些fuzzy ratios
使用Levenshtein Distances
作為這些ID,但它們不足以使我真正匹配。
有沒有辦法使用SVM之類的方法更好地標識這些ID?
嘗試使用fuzz.token_set_ratio()
而不是fuzz.token_set_ratio()
fuzzy.ration()
。 使用fuzz.token_set_ratio(),您將獲得很好的匹配。
有關更多信息,請訪問docs 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.