![](/img/trans.png)
[英]Pandas: How to drop column values that are duplicates but keep certain row values
[英]Pandas drop only certain column values when trying to remove duplicates
我的問題與此類似,但不完全相同。 我有一個具有以下結構的CSV文件
| id | entrydate | sales | purchases |
| -- | -----------| ----- | --------- |
| 1 | 05/03/2017 | 10 | 1 |
| 2 | 05/03/2017 | 20 | 2 |
| 3 | 05/03/2017 | 30 | 3 |
| 1 | 05/03/2017 | 40 | 1 |
我正在將其讀入數據框,並且想要獲取每日的銷售和購買匯總(單個ID無關緊要,只是每日匯總)。
但是,首先,我需要刪除重復項。 這讓我感到震驚,因為如果您使用上面的示例,對於ID 1 ,同一天有兩個條目,但是“ purchases
列中的多個條目將被視為重復項,而“ sales
列中的多個條目是有效的,因此正確的分組將導致
| id | entrydate | sales | purchases |
| -- | -----------| ----- | --------- |
| 1 | 05/03/2017 | 50 | 1 |
| 2 | 05/03/2017 | 20 | 2 |
| 3 | 05/03/2017 | 30 | 3 |
然后獲取每日總計將給我
|entrydate | sales | purchases |
| -----------| ----- | --------- |
| 05/03/2017 | 100 | 6 |
我正在嘗試使用以下方式刪除purchases
重復項
df = pandas.read_csv('../my-csv.csv', parse_dates=True, dayfirst=True, usecols=my_columns, dtype=my_dtypes).rename(columns=str.lower).assign(date=lambda x: pd.to_datetime(x['entrydate'], format="%d/%m/%Y")).set_index('date')
df = df.drop_duplicates(['id', 'entrydate', 'purchases'])
df.drop(['id'], axis=1, inplace=True)
df = df.groupby(pd.TimeGrouper(freq='D')).sum()
但這會刪除重復的purchases
但也會刪除有效的sales
A-Za-z解決方案的圖片
如果按輸入日期分組,則可以匯總銷售和購買:
In [11]: df.groupby("entrydate").agg({"sales": "sum", "purchases": "sum"})
Out[11]:
sales purchases
entrydate
05/03/2017 100 7
您可以使用groupby兩次,首先要匯總銷售
df.sales = df.groupby('id').sales.transform('sum')
df = df.drop_duplicates()
df.groupby(df.entrydate).sum().reset_index()
entrydate sales purchases
0 2017-05-03 100 6
編輯:占不同日期的總和
df.sales = df.groupby(['id', 'date']).sales.transform('sum')
df = df.drop_duplicates()
df.groupby('date')['sales', 'purchases'].sum().reset_index()
你得到
date sales purchases
0 2017-03-05 100 6
1 2017-03-06 40 1
設定
df = pd.DataFrame({'entrydate': {0: '05/03/2017',
1: '05/03/2017',
2: '05/03/2017',
3: '05/03/2017',
4: '06/03/2017',
5: '06/03/2017',
6: '06/03/2017',
7: '06/03/2017'},
'id': {0: 1, 1: 2, 2: 3, 3: 1, 4: 1, 5: 2, 6: 3, 7: 1},
'purchases': {0: 1, 1: 2, 2: 3, 3: 1, 4: 1, 5: 2, 6: 3, 7: 1},
'sales': {0: 10, 1: 20, 2: 30, 3: 40, 4: 10, 5: 20, 6: 30, 7: 40}})
解
#First group by entrydate and id, summing sales and take the max from purchases(removing duplicates). Then another group by to sum sales and purchases.
df.groupby(['entrydate','id']).agg({'sales':sum, 'purchases':max}).groupby(level=0).sum().reset_index()
Out[431]:
entrydate purchases sales
0 05/03/2017 6 100
1 06/03/2017 6 100
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.