分類器，用於在Python中匹配具有相似ID字符串的兩個集合

Question

我有2組數據，這些數據具有相同的功能集，但其ID名稱使用不同的標簽。

我想看看是否有一個最佳的分類器，可以幫助我根據這些功能選擇最匹配的名稱。

Set 1看起來像：

Name         ID1           code1          move1        year
Highland     1             nc             st           2002
Highland     4             nc             st           2001
Highland     gt3           nc             st           2002
Highland     gt2           nc             st           2003
Mark         wt1           ns             st           2000
Mark         ws1           ns             st           1945
Mark         ost6          nc             ct           2002
Niko         1             ng             ct           2000
.
.

Set 2看起來像：

Name         ID2           code2          move2        year
Highland     gt1           nc             st           2002
Highland     gt3           nc             st           
Highland     2             nc             st           2003
Highland     gt4           nc             st           2001
Mark         t1            ns             st           2000
Mark         s1            nsi            st           
Mark         ost6          nci            ct           2002
Niko         1             ngi            ct           2000
.
.

如您所見，這兩個集合有一些區別，但Name始終相同-ID有時幾乎匹配，有時完美匹配。 其他時候， codes或moves匹配或接近，有時幾年通常只缺少一組。

我已經計算出fuzzy ratios ，這些fuzzy ratios使用Levenshtein Distances作為這些ID，但它們不足以使我真正匹配。

有沒有辦法使用SVM之類的方法更好地標識這些ID？

Answer 1

嘗試使用fuzz.token_set_ratio()而不是fuzz.token_set_ratio() fuzzy.ration() 。 使用fuzz.token_set_ratio（），您將獲得很好的匹配。

有關更多信息，請訪問docs 。

分類器，用於在Python中匹配具有相似ID字符串的兩個集合

問題描述

1 個解決方案

解決方案1
1 2019-01-15 10:00:24

分類器，用於在Python中匹配具有相似ID字符串的兩個集合

問題描述

1 個解決方案

解決方案1 1 2019-01-15 10:00:24

解決方案1
1 2019-01-15 10:00:24