根據多行分組條件更改 pandas 列中的單元格值

Question

我有一個 pandas dataframe 包含三列：

import pandas as pd
di={'id':[1,1,2,3,4,4],'b':['Sydney','Bexley','Arncliffe','Hurstville','Bexley North','Carlton'],
   'c':['contra','contra','contra_approved','contra','contra_approved','contra']}

df=pd.DataFrame(di)
df.head(10)


id  b             c
1   Sydney        contra
1   Bexley        contra
2   Arncliffe     contra_approved
3   Hurstville    contra
4   Bexley North  contra_approved
4   Carlton       contra

每個id都應該在'c'列中有一個關鍵字contra_approved 。

對於帶有關鍵字' contra '的一個值的 id，我需要更改為contra_approved （例如 id 3 ）
對於具有關鍵字 contra 且其中沒有任何一個為contra_approved的多行 id，我需要將id相關行中的第一次出現更改為contra_approved （例如 id 1 ）。

最終的 dataframe 將是：


id  b             c
1   Sydney        contra_approved
1   Bexley        contra
2   Arncliffe     contra_approved
3   Hurstville    contra_approved
4   Bexley North  contra_approved
4   Carlton       contra

如何解釋 pandas 中的以下邏輯？

Answer 1

我們試試看：

# check if all rows within same `id` have `c==contra`
g = df['c'].eq('contra').groupby(df['id']).transform('all')

# switch the first of those group into `contra_approved` 
# regardless of counts
df.loc[g & (~df.duplicated('id')), 'c'] = 'contra_approved'

Output：

   id             b                c
0   1        Sydney  contra_approved
1   1        Bexley           contra
2   2     Arncliffe  contra_approved
3   3    Hurstville  contra_approved
4   4  Bexley North  contra_approved
5   4       Carlton           contra

Answer 2

你可以試試：

def f(d):
    if "contra_approved" not in d["c"].unique():
        d.loc[d.index[0], "c"] = "contra_approved"
    return d

df = df.groupby("id").apply(f)

Answer 3

g=df.groupby('id').head(1)
df[~df.isin(g)].dropna().append(g.replace(regex='^contra$',value='contra_approved')).sort_values(by='id')


   id             b                c
1  1.0        Bexley           contra
0  1.0        Sydney  contra_approved
2  2.0     Arncliffe  contra_approved
3  3.0    Hurstville  contra_approved
5  4.0       Carlton           contra
4  4.0  Bexley North  contra_approved

這個怎么運作

g=df.groupby('id').head(1) #隔離每組的第一個
g.replace(regex='^contra$',value='contra_approved') #replace contra in g
df[~df.isin(g)] #隔離每組中不在第一個的
結合第二步和第三步的結果

Answer 4

讓我們試試

cond = df.groupby('id').cumcount().eq(0) 
       & ~df.id.isin(df.loc[df.c.eq('contra_approved'),'id'])
df.loc[cond,'c']='contra_approved'
df
Out[146]: 
   id             b                c
0   1        Sydney  contra_approved
1   1        Bexley           contra
2   2     Arncliffe  contra_approved
3   3    Hurstville  contra_approved
4   4  Bexley North  contra_approved
5   4       Carlton           contra

根據多行分組條件更改 pandas 列中的單元格值

問題描述

4 個解決方案

解決方案1
1 2021-03-02 01:58:08

解決方案2
1 2021-03-02 02:01:46

解決方案3
0 2021-03-02 02:08:42

解決方案4
0 2021-03-02 02:18:09

根據多行分組條件更改 pandas 列中的單元格值

問題描述

4 個解決方案

解決方案1 1 2021-03-02 01:58:08

解決方案2 1 2021-03-02 02:01:46

解決方案3 0 2021-03-02 02:08:42

解決方案4 0 2021-03-02 02:18:09

解決方案1
1 2021-03-02 01:58:08

解決方案2
1 2021-03-02 02:01:46

解決方案3
0 2021-03-02 02:08:42

解決方案4
0 2021-03-02 02:18:09