熊貓-在數據框中添加標志列

Question

我有一個像這樣的數據框：

Client_ID    Product_nb   Item_id
1            1            i1  
1            1            i2
1            1            i3

1            2            i2
1            2            i5  
1            2            i7

1            3            i1
1            3            i2
1            3            i4
1            3            i6

2            1            i1
2            1            i2
2            1            i3
2            1            i4

2            2            i1
2            2            i2
...          ...          ...

因此，每個客戶端（ client_id ）具有多個產品（ Product_nb ）。 對於每種產品，我只想保留一項（ item_id ）。 對於同一客戶，下一個產品不應與前一個產品相對應。

如果要保留項目，我想在每個項目旁邊添加一個標志：

Client_ID    Product_nb   Item_id   Keep
1            1            i1        1
1            1            i2        0
1            1            i3        0

1            2            i2        1
1            2            i5        0
1            2            i7        0

1            3            i1        0
1            3            i2        0
1            3            i4        1
1            3            i6        0

2            1            i1        1
2            1            i2        0
2            1            i3        0
2            1            i4        0

2            2            i1        0
2            2            i2        1
...          ...          ...       ...

我的想法是遍歷所有客戶和產品。 對於每個客戶，將已保存的項目保存在列表中：

df = df.set_index(['client_id','product_nb','item_id','keep'])
client_ids = df.index.get_level_values('client_id').unique()
for client in client_ids:
    list_already = []
    prod_nbs = df.loc[client].index.get_level_values('product_nb').unique()
    for prod_nb in prod_nbs:
        item_ids = df.loc[client,prod_nb].index.get_level_values('item_id').unique()
        for item_id in item_ids:
            if (item_id in list_already):
                df.loc[client,prod_nb,item_id,'keep'] = 1
                continue
            else:
                list_already.append(item_id)
                df.loc[client,prod_nb,item_id,'keep'] = 1
                break

但這會返回我輸入數據幀。

我將竭誠為您提供任何幫助。 謝謝

Answer 1

在熊貓中，您通常不希望遍歷DataFrame。 它很慢，並且幾乎所有東西都有更多優化的例程。 就你而言

df.groupby(['Client_ID', 'Product_nb'])['Item_id'].first()

做這份工作。 用DataFrame的名稱替換df

編輯：我過度理解了約束，您選擇的值應該是唯一的。 最好事先過濾值，然后再過濾groupby

熊貓-在數據框中添加標志列

問題描述

1 個解決方案

解決方案1
-1 2017-08-11 09:30:20

熊貓-在數據框中添加標志列

問題描述

1 個解決方案

解決方案1 -1 2017-08-11 09:30:20

解決方案1
-1 2017-08-11 09:30:20