簡體   English   中英

2列之間的模糊匹配(Python)

[英]fuzzy match between 2 columns (Python)

我有一個名為“ df_combo”的熊貓數據 ,其中包含列“ worker_id”“ url_entrance”“ company_name” 我正在嘗試生成一個輸出列,該輸出列會告訴我“ url_entrance”列中的URL是否包含“ company_name”列中的任何單詞。 甚至像Fuzzywuzzy這樣的緊密匹配也可以使用。

例如,如果URL是“ www.grandhotelseattle.com”,“ company_name”是“ Hotel Prestige Seattle”,則絨毛比率可能在70-80之間。

我嘗試了以下腳本: >>> fuzz.ratio(df_combo ['url_entrance'],df_combo ['company_name']),但它僅返回1個數字,這是整個列的總體模糊率。 我希望每行都有模糊比率,並將這些比率存儲在新列中。

感謝大家的投入。 我已經解決了我的問題! “ agg3l”提供的鏈接很有幫助。 我看到的“ TypeError”是因為“ url_entrance”或“ company_name”在某些行中具有一些浮動類型。 我使用以下腳本將兩列都轉換為字符串,重新運行fuzz.ratio腳本並使其工作!

df_combo ['url_entrance'] = df_combo ['url_entrance']。astype(str)df_combo ['company_name'] = df_combo ['company_name']。astype(str)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM