轉換pandas groupby

Question

我有一個來自SAP的文件，在處理數據時並不是最漂亮的文件。 所以使用series.str.contains()和boolean mask我已經設法縮小到如下所示的數據幀：

       0        1
0    SUB      123
1    CAT      SKU
2   CODE  1000123
3   CODE  1000234
4    SUB      456
5    CAT      LIQ
6  CODE1  1000345
7  CODE1  1000534
8  CODE1  1000433

我正在尋找一種方法，我可以將每個SUB分成如下所示的新條目：

print(expected_df)

   SUB  CAT       CODE      CODE1
0  123  SKU  1000123.0        NaN
1  123  SKU  1000234.0        NaN
2  456  LIQ        NaN  1000345.0
3  456  LIQ        NaN  1000534.0
4  456  LIQ        NaN  1000433.0

我似乎無法通過這一步。 但是，這一行：

df[0].eq('SUB').cumsum()

有助於隔離組，如果需要可以用作輔助系列。

如圖所示轉置數據的任何幫助都將非常感激。

謝謝。

Answer 1

IIUC，

df.set_index('col1').groupby(df.col1.eq('SUB').cumsum().values).apply(lambda s: pd.DataFrame({
    'SUB': s.loc['SUB'].item(),
    'CAT': s.loc['CAT'].item(),
     s.index[2]: s.loc[s.index[2]].col2.tolist()
})).reset_index(drop=True)

輸出

    SUB CAT CODE    CODE1
0   123 SKU 1000123 NaN
1   123 SKU 1000234 NaN
2   456 LIQ NaN     1000345
3   456 LIQ NaN     1000534
4   456 LIQ NaN     1000433

但是，這看起來像XY問題。 也許值得一看，你最初是如何結束這個df的

Answer 2

IIUC

l=[y.set_index('0').T.set_index(['SUB','CAT']).stack() for x , y in df.groupby(df['0'].eq('SUB').cumsum())]
s=pd.concat(l).to_frame('v')
s.assign(key=s.groupby(level=[0,1,2]).cumcount()).set_index('key',append=True).unstack(2)
                   v         
0               CODE    CODE1
SUB CAT key                  
123 SKU 0    1000123      NaN
        1    1000234      NaN
456 LIQ 0        NaN  1000345
        1        NaN  1000534
        2        NaN  1000433

Answer 3

您可以嘗試使用df.pivot然后使用.ffill（），bfill（）來表示特定的“SUB”列組行。

df1 = df.pivot(columns='0')
df1.columns = df1.columns.map(lambda x: x[1])
df1.SUB = df1.SUB.ffill()
df1.groupby('SUB').ffill().groupby('SUB').bfill().drop_duplicates()
#5.89 ms ± 1.84 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

# as time constraints, without use of lambda operation
#df1.groupby(df1.SUB.ffill()).apply(lambda x: x.ffill().bfill()).drop_duplicates()
#16 ms ± 1.06 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

日期：

    SUB CAT CODE    CODE1   SUB
2   123 SKU 1000123 NaN     123
3   123 SKU 1000234 NaN      123
6   456 LIQ NaN     1000345 456
7   456 LIQ NaN     1000534 456
8   456 LIQ NaN     1000433 456

轉換pandas groupby

問題描述

3 個解決方案

解決方案1
2 2019-03-24 15:29:17

解決方案2
2 2019-03-24 15:31:28

解決方案3
2 已采納 2019-03-24 15:49:45

轉換pandas groupby

問題描述

3 個解決方案

解決方案1 2 2019-03-24 15:29:17

解決方案2 2 2019-03-24 15:31:28

解決方案3 2 已采納 2019-03-24 15:49:45

解決方案1
2 2019-03-24 15:29:17

解決方案2
2 2019-03-24 15:31:28

解決方案3
2 已采納 2019-03-24 15:49:45