簡體   English   中英

分類器,用於在Python中匹配具有相似ID字符串的兩個集合

[英]Classifier for matching two sets with similar ID strings in Python

我有2組數據,這些數據具有相同的功能集,但其ID名稱使用不同的標簽。

我想看看是否有一個最佳的分類器,可以幫助我根據這些功能選擇最匹配的名稱。

Set 1看起來像:

Name         ID1           code1          move1        year
Highland     1             nc             st           2002
Highland     4             nc             st           2001
Highland     gt3           nc             st           2002
Highland     gt2           nc             st           2003
Mark         wt1           ns             st           2000
Mark         ws1           ns             st           1945
Mark         ost6          nc             ct           2002
Niko         1             ng             ct           2000
.
.

Set 2看起來像:

Name         ID2           code2          move2        year
Highland     gt1           nc             st           2002
Highland     gt3           nc             st           
Highland     2             nc             st           2003
Highland     gt4           nc             st           2001
Mark         t1            ns             st           2000
Mark         s1            nsi            st           
Mark         ost6          nci            ct           2002
Niko         1             ngi            ct           2000
.
.

如您所見,這兩個集合有一些區別,但Name始終相同-ID有時幾乎匹配,有時完美匹配。 其他時候, codesmoves匹配或接近,有時幾年通常只缺少一組。

我已經計算出fuzzy ratios ,這些fuzzy ratios使用Levenshtein Distances作為這些ID,但它們不足以使我真正匹配。

有沒有辦法使用SVM之類的方法更好地標識這些ID?

嘗試使用fuzz.token_set_ratio()而不是fuzz.token_set_ratio() fuzzy.ration() 使用fuzz.token_set_ratio(),您將獲得很好的匹配。

有關更多信息,請訪問docs

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM