如何搜索 dataframe 的特定行以在第二個 dataframe 中找到匹配項？

Question

我有一個大數據集，我想以有效的方式完成以下任務。 假設我們有 2 個數據框。 對於df2中的每個元素，我只想在第一個數據集df1中搜索前 2 個字母相同的行，然后選擇具有最常見標記的單詞。 讓我們看一個例子：

df1: 

common work   co
summer hot    su
apple         ap
colorful fall  co
support it     su
could comp     co

df2:

condition work it  co
common mistakes    co
could comp work    co
summer             su

以df2的第一行為例（ condition work it ）。 我想在df1中找到一行，它們具有相同的first_two並且具有最常見的標記。

condition work it的first_two是co 。 所以我想在df1中搜索first_two是co 。 所以搜索是在： common work ， colorful fall ， could comp ，因為condition work it有 1 個 common token 和common work它被選中。

output：

df2:
name               first_two      match
condition work it  co              `common work`     
common mistakes    co              `common work`
could comp work    co              `could comp` 
summer             su              `summer hot'
appears            ap                  Nane

最后一行是 Nane，因為appears和apple之間沒有共同詞

Answer 1

您已經解釋了最有效的方法。

使用.str.[:2]提取系列的前 2 個字母，並將其分配給 dataframe 中的新列。
從 df2 中提取 2 個字母列的唯一值。
將 #2 的結果內連接到 df1。
對 #3 的結果按計數執行分組，並根據計數降序排序並刪除重復項，以獲得 2 個字母列的重復次數最多的項目。
將 #4 的連接結果左連接到 df2。

如何搜索 dataframe 的特定行以在第二個 dataframe 中找到匹配項？

問題描述

1 個解決方案

解決方案1
1 2022-07-25 16:21:39

如何搜索 dataframe 的特定行以在第二個 dataframe 中找到匹配項？

問題描述

1 個解決方案

解決方案1 1 2022-07-25 16:21:39

解決方案1
1 2022-07-25 16:21:39