嘗試刪除重復項時，熊貓只刪除某些列值

Question

我的問題與此類似，但不完全相同。 我有一個具有以下結構的CSV文件

| id | entrydate  | sales | purchases |
| -- | -----------| ----- | --------- |
| 1  | 05/03/2017 | 10    | 1         |
| 2  | 05/03/2017 | 20    | 2         |
| 3  | 05/03/2017 | 30    | 3         |
| 1  | 05/03/2017 | 40    | 1         |

我正在將其讀入數據框，並且想要獲取每日的銷售和購買匯總（單個ID無關緊要，只是每日匯總）。

但是，首先，我需要刪除重復項。 這讓我感到震驚，因為如果您使用上面的示例，對於ID 1 ，同一天有兩個條目，但是“ purchases列中的多個條目將被視為重復項，而“ sales列中的多個條目是有效的，因此正確的分組將導致

| id | entrydate  | sales | purchases |
| -- | -----------| ----- | --------- |
| 1  | 05/03/2017 | 50    | 1         |
| 2  | 05/03/2017 | 20    | 2         |
| 3  | 05/03/2017 | 30    | 3         |

然后獲取每日總計將給我

|entrydate   | sales | purchases |
| -----------| ----- | --------- |
| 05/03/2017 | 100   | 6         |

我正在嘗試使用以下方式刪除purchases重復項

df = pandas.read_csv('../my-csv.csv', parse_dates=True, dayfirst=True, usecols=my_columns, dtype=my_dtypes).rename(columns=str.lower).assign(date=lambda x: pd.to_datetime(x['entrydate'], format="%d/%m/%Y")).set_index('date')

df = df.drop_duplicates(['id', 'entrydate', 'purchases'])
df.drop(['id'], axis=1, inplace=True)
df = df.groupby(pd.TimeGrouper(freq='D')).sum()

但這會刪除重復的purchases但也會刪除有效的sales

A-Za-z解決方案的圖片

Answer 1

如果按輸入日期分組，則可以匯總銷售和購買：

In [11]: df.groupby("entrydate").agg({"sales": "sum", "purchases": "sum"})
Out[11]:
            sales  purchases
entrydate
05/03/2017    100          7

Answer 2

您可以使用groupby兩次，首先要匯總銷售

df.sales = df.groupby('id').sales.transform('sum')
df = df.drop_duplicates()
df.groupby(df.entrydate).sum().reset_index()


    entrydate   sales   purchases
0   2017-05-03  100     6

編輯：占不同日期的總和

df.sales = df.groupby(['id', 'date']).sales.transform('sum')
df = df.drop_duplicates()
df.groupby('date')['sales', 'purchases'].sum().reset_index()

你得到

    date        sales   purchases
0   2017-03-05  100     6
1   2017-03-06  40      1

Answer 3

設定

df = pd.DataFrame({'entrydate': {0: '05/03/2017',
  1: '05/03/2017',
  2: '05/03/2017',
  3: '05/03/2017',
  4: '06/03/2017',
  5: '06/03/2017',
  6: '06/03/2017',
  7: '06/03/2017'},
 'id': {0: 1, 1: 2, 2: 3, 3: 1, 4: 1, 5: 2, 6: 3, 7: 1},
 'purchases': {0: 1, 1: 2, 2: 3, 3: 1, 4: 1, 5: 2, 6: 3, 7: 1},
 'sales': {0: 10, 1: 20, 2: 30, 3: 40, 4: 10, 5: 20, 6: 30, 7: 40}})

解

#First group by entrydate and id, summing sales and take the max from purchases(removing duplicates). Then another group by to sum sales and purchases.
df.groupby(['entrydate','id']).agg({'sales':sum, 'purchases':max}).groupby(level=0).sum().reset_index()
Out[431]: 
    entrydate  purchases  sales
0  05/03/2017          6    100
1  06/03/2017          6    100

嘗試刪除重復項時，熊貓只刪除某些列值

問題描述

3 個解決方案

解決方案1
1 2017-05-09 18:51:20

解決方案2
1 已采納 2017-05-09 18:58:50

解決方案3
0 2017-05-09 23:38:55

嘗試刪除重復項時，熊貓只刪除某些列值

問題描述

3 個解決方案

解決方案1 1 2017-05-09 18:51:20

解決方案2 1 已采納 2017-05-09 18:58:50

解決方案3 0 2017-05-09 23:38:55

解決方案1
1 2017-05-09 18:51:20

解決方案2
1 已采納 2017-05-09 18:58:50

解決方案3
0 2017-05-09 23:38:55