根據連續排序值按 DataFrame 分組

Question

我正在嘗試根據值的順序對 dataframe 進行分組。 這是我的示例代碼：

import pandas as pd

df = pd.DataFrame([{'c1': 'v1', 'c2': 1},
               {'c1': 'v1', 'c2': 2},
               {'c1': 'v2', 'c2': 3},
               {'c1': 'v1', 'c2': 4},
               {'c1': 'v2', 'c2': 5},
               {'c1': 'v2', 'c2': 6},
               {'c1': 'v3', 'c2': 7}])
df['test'] = 'test'
df1 = df.groupby(['test', 'c1'])['c2'].describe()[['min', 'max']]
print(df1)

這是結果：

         min  max
test c1          
test v1  1.0  4.0
     v2  3.0  6.0
     v3  7.0  7.0

但我正在尋找獲得以下結果的可能性：

         min  max
test c1          
test v1  1.0  2.0
     v2  3.0  3.0
     v1  4.0  4.0
     v2  5.0  6.0
     v3  7.0  7.0

Answer 1

采用：

df1 = df.groupby(['test', 'c1', df.c1.ne(df.c1.shift()).cumsum()]).c2.describe()[['min', 'max']].droplevel(2)

結果：

         min  max
test c1          
test v1  1.0  2.0
     v1  4.0  4.0
     v2  3.0  3.0
     v2  5.0  6.0
     v3  7.0  7.0

注意在轉換結束時使用pandas.MultiIndex.droplevel方法，它從 dataframe 多索引中刪除級別。

Answer 2

IIUC 你需要按連續的c1分組：

df1 = (df.assign(group=df["c1"].ne(df["c1"].shift()).cumsum())
         .groupby(['test', 'c1', "group"])['c2'].describe()[['min', 'max']]
         .sort_index(level=2))

print(df1)

               min  max
test c1 group          
test v1 1      1.0  2.0
     v2 2      3.0  3.0
     v1 3      4.0  4.0
     v2 4      5.0  6.0
     v3 5      7.0  7.0

根據連續排序值按 DataFrame 分組

問題描述

2 個解決方案

解決方案1
2 已采納 2020-08-20 10:01:35

解決方案2
1 2020-08-20 09:59:28

根據連續排序值按 DataFrame 分組

問題描述

2 個解決方案

解決方案1 2 已采納 2020-08-20 10:01:35

解決方案2 1 2020-08-20 09:59:28

解決方案1
2 已采納 2020-08-20 10:01:35

解決方案2
1 2020-08-20 09:59:28