平均 pandas DataFrame 中的重復項，而不是使用 drop_duplicates 來保持第一

Question

假設我有一個Pandas DataFrame的形式：

    id      price       dur
1   153     80.0        0.0 
2   153     130.0       0.0 
3   153     95.0        0.0 
4   156     115.0       0.0
5   156     165.0       0.0
6   156     130.0       0.0
7   158     90.0        0.0
8   158     140.0       0.0 
9   158     105.0       0.0
10  158     155.0       0.0

我有一個名為id的列，它有duplicates 。 我想通過保留unique id然后執行id的平均price而不是使用pd.DataFrame.drop_duplicates()來處理這種duplicates

這是我預期的 output：

    id      price       dur
1   153     101.667     0.0 
2   156     136.667     0.0
3   158     122.5       0.0

我怎么可能處理這個？

Answer 1

對於每一列，必須在 GroupBy.agg 中指定聚合GroupBy.agg ：

df1 = df.groupby('id', as_index=False).agg({'price':'mean', 'dur':'first'})
print (df1)
    id       price  dur
0  153  101.666667  0.0
1  156  136.666667  0.0
2  158  122.500000  0.0

但是，如果每個id的dur中的相同值可以按兩列分組：

df2 = df.groupby(['id', 'dur'], as_index=False)['price'].mean()

平均 pandas DataFrame 中的重復項，而不是使用 drop_duplicates 來保持第一

問題描述

1 個解決方案

解決方案1
1 2020-04-14 10:26:23

平均 pandas DataFrame 中的重復項，而不是使用 drop_duplicates 來保持第一

問題描述

1 個解決方案

解決方案1 1 2020-04-14 10:26:23

解決方案1
1 2020-04-14 10:26:23