根據唯一列值將數據框拆分為更小的數據框

Question

這是我的數據框：

    Quantity     Code         Value       
0       1757     08951201     717.0
1       1100     08A85800       0.0
2       2500     08A85800       0.0
3        323     08951201       0.0
4        800     08A85800       0.0

我如何將其拆分為基於代碼列創建的較小數據框。 （例如，這個應該分成帶有所有 08951201 代碼的 df1 和帶有 08A85800 的 df2）

編輯：我很想有一種方法將它們合並回原始 dataframe 在我將執行一些價值計算之后以相同的順序。

Answer 1

使用groupby並應用您的自定義 function 來處理您的子 dataframe：

groups = df.groupby('Code')
print(list(groups))

# Output:
[('08951201',    Quantity      Code  Value
0      1757  08951201  717.0
3       323  08951201    0.0),

('08A85800',    Quantity      Code  Value
1      1100  08A85800    0.0
2      2500  08A85800    0.0
4       800  08A85800    0.0)]

現在假設您想按Value sum ：

>>> df.groupby('Code')['Value'].sum()
Code
08951201    717.0
08A85800      0.0
Name: Value, dtype: float64

Answer 2

正如建議的那樣，您可以在 dataframe 上使用groupby()以按一列名稱值分隔：

import pandas as pd

cols = ['Quantity', 'Code', 'Value']
data = [[1757,     '08951201',     717.0],
 [1100,     '08A85800',       0.0],
 [2500,     '08A85800',       0.0],
 [323,    '08951201',      0.0],
 [800,    '08A85800',       0.0]]

df = pd.DataFrame(data, columns=cols)

groups =df.groupby(['Code'])

然后您可以通過groups.indices恢復索引，這將返回一個以“代碼”值作為鍵，索引作為值的字典。 最后，如果您想獲取每個子數據幀，您可以調用group_list = list(groups) 。 我建議分兩步完成工作（首先分組，然后調用列表），因為這樣您可以通過 groupDataframe （ group ）調用其他方法

編輯

然后，如果你想要一個特定的 dataframe 你可以打電話

 df_i = group_list[i][1]

group_list[i]是子數據幀的第 i 個元素，但它是一個包含(group_val,group_df)的元組。 其中group_val是與這個新的 dataframe（ '08951201'或'08A85800' ）關聯的值， group_df是新的 dataframe。

根據唯一列值將數據框拆分為更小的數據框

問題描述

2 個解決方案

解決方案1
0 2021-11-30 14:17:08

解決方案2
0 2021-11-30 14:27:33

根據唯一列值將數據框拆分為更小的數據框

問題描述

2 個解決方案

解決方案1 0 2021-11-30 14:17:08

解決方案2 0 2021-11-30 14:27:33

解決方案1
0 2021-11-30 14:17:08

解決方案2
0 2021-11-30 14:27:33