模糊匹配 2 數據幀？

Question

有一個 package 叫 fuzzy_pandas 可以使用 levenshtein 進行比率字符串匹配。 這里有一些很好的例子

作為這個例子：

import pandas as pd
import fuzzy_pandas as fpd

df1 = pd.DataFrame({'Key':['Apple', 'Banana', 'Orange', 'Strawberry']})
df2 = pd.DataFrame({'Key':['Aple', 'Mango', 'Orag', 'Straw', 'Bannanna', 'Berry']})

results = fpd.fuzzy_merge(df1, df2,
            left_on='Key',
            right_on='Key',
            method='levenshtein',
            threshold=0.6)

results.head()

所以，我不知道是否可以在結果中顯示閾值。

output 是：

Key Key
0   Apple   Aple
1   Banana  Bannanna
2   Orange  Orag

我想要這樣的東西：

Key Key Ratio
0   Apple   Aple 0.81
1   Banana  Bannanna 0.87
2   Orange  Orag 0.78

Maybe with another library

Answer 1

要創建閾值，您可以執行以下代碼：

結果['相似度']= results.apply(lambda x:fuzz.token_set_ratio(x['Key'],x['Key']),axis=1)

模糊匹配 2 數據幀？

問題描述

1 個解決方案

解決方案1
0 2023-01-25 22:33:35

模糊匹配 2 數據幀？

問題描述

1 個解決方案

解決方案1 0 2023-01-25 22:33:35

解決方案1
0 2023-01-25 22:33:35