如何將此功能應用於DataFrame中的每個組

Question

相對較新的Pandas，來自R背景。 我有一個這樣的DataFrame

import pandas as pd
import numpy as np

df = pd.DataFrame({'ProductID':[0,5,9,3,2,8], 'StoreID':[0,0,0,1,1,2]})

   ProductID  StoreID
0          0        0
1          5        0
2          9        0
3          3        1
4          2        1
5          8        2

對於每個StoreID，如何根據訂購的ProductID將df的行標記為1、2，...？ 然后，我該如何規范這些排名？ 換句話說，我如何實現以下目標

df['Product_Rank_Index'] = np.array([1,2,3,2,1,1])
df['Product_Rank_Index_Normalized'] = np.array([1/3, 2/3, 3/3, 2/2, 1/2, 1/1])

   ProductID  StoreID  Product_Rank_Index  Product_Rank_Index_Normalized
0          0        0                   1                       0.333333
1          5        0                   2                       0.666667
2          9        0                   3                       1.000000
3          3        1                   2                       1.000000
4          2        1                   1                       0.500000
5          8        2                   1                       1.000000

我試着用df.groupby('StoreID')做一些事情，但是什么也做不了。

Answer 1

有了這個答案，他想通了。

df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))

Answer 2

您可以先對值進行排序，然后進行分組，如下所示

>>> import pandas as pd
>>> df = pd.DataFrame({'ProductID':[0,5,9,3,2,8], 'StoreID':[0,0,0,1,1,2]})
>>> df.sort(['StoreID', 'ProductID'], inplace=True)
>>> df                
   ProductID  StoreID 
0          0        0 
1          5        0 
2          9        0 
4          2        1 
3          3        1 
5          8        2 
>>> df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1))
StoreID
0    [1, 2, 3]
1       [1, 2]
2          [1]
>>> df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1)).sum()
[1, 2, 3, 1, 2, 1]
>>> df['Rank'] = df.groupby('StoreID').apply(lambda grp: range(1, len(grp)+1)).sum()
>>> df
   ProductID  StoreID  Rank
0          0        0     1
1          5        0     2
2          9        0     3
4          2        1     1
3          3        1     2
5          8        2     1

然后，您可以按自己的方式規范自己的排名。

Answer 3

正如您所指出的，Ben可以執行以下操作：

 df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))

請注意，使用transform可以達到相同的結果，但是更好的做法是更快（大約快一倍）：

In [32]: %timeit df.groupby('StoreID').ProductID.apply(lambda x: x.rank()/len(x))
100 loops, best of 3: 2.26 ms per loop

In [31]: %timeit df.groupby('StoreID').ProductID.transform(lambda x: x.rank()/len(x))
1000 loops, best of 3: 1.3 ms per loop

如何將此功能應用於DataFrame中的每個組

問題描述

3 個解決方案

解決方案1
2 2016-03-18 04:58:06

解決方案2
1 2016-03-18 05:01:31

解決方案3
1 已采納 2016-03-18 08:46:33

如何將此功能應用於DataFrame中的每個組

問題描述

3 個解決方案

解決方案1 2 2016-03-18 04:58:06

解決方案2 1 2016-03-18 05:01:31

解決方案3 1 已采納 2016-03-18 08:46:33

解決方案1
2 2016-03-18 04:58:06

解決方案2
1 2016-03-18 05:01:31

解決方案3
1 已采納 2016-03-18 08:46:33