![](/img/trans.png)
[英]Aggregate Multiple columns with different agg functions in Pandas using Crosstab
[英]Pandas Groupby using different agg methods for different columns
這是場景:
我有一個大型有序數據集,包含314列和超過300.000行的ML問題。
我想通過X列(供應商)按數據集進行分組。
期望的輸出:
由於我們討論的是314列數據集,因此我不能僅創建包含每列的dict。
df_train.groupby('Supplier').agg({<some columns> : 'last', <some columns>: 'sum', <some columns>: 'mean' })
PS:我使用我想要應用不同聚合的序列來排序列。
您可以使用select_dtypes
來獲取數字列,並在字典理解中使用它們。
numeric_cols = df_train.select_dtypes('numeric').columns
agg_dict = {c: 'sum' if c in numeric_cols else 'last' for c in df_train.columns}
grouped = df_train.groupby('Supplier').agg(agg_dict)
關於您的單熱編碼列,您需要提供有關如何識別它們的更多信息。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.