Python pandas相当于R groupby mutate

Question

所以在R中我有一个由4列组成的数据框，称之为df ，我想通过组的总和来计算比率，我可以用这样的方式：

// generate data
df = data.frame(a=c(1,1,0,1,0),b=c(1,0,0,1,0),c=c(10,5,1,5,10),d=c(3,1,2,1,2));
| a   b   c    d |
| 1   1   10   3 |
| 1   0   5    1 |
| 0   0   1    2 |
| 1   1   5    1 |
| 0   0   10   2 |
// compute sum product ratio
df = df%>% group_by(a,b) %>%
      mutate(
          ratio=c/sum(c*d)
      );
| a   b   c    d  ratio |
| 1   1   10   3  0.286 |
| 1   1   5    1  0.143 |
| 1   0   5    1  1     |
| 0   0   1    2  0.045 |
| 0   0   10   2  0.454 |

但是在python中我需要求助于循环。 我知道在python中应该有一个比raw循环更优雅的方式，任何人都有任何想法？

Answer 1

它可以使用groupby()和apply()以类似的语法groupby() ：

df['ratio'] = df.groupby(['a','b'], group_keys=False).apply(lambda g: g.c/(g.c * g.d).sum())

Answer 2

根据pandas github上的这个线程，我们可以使用transform()方法复制dplyr::groupby()和dplyr::mutate() 。 对于此示例，它将如下所示：

df = pd.DataFrame( dict( a=(1,1,0,1,0)
                        , b=(1,0,0,1,0)
                        , c=(10,5,1,5,10)
                        , d=(3,1,2,1,2) ) ) \
    .assign( prod_c_d = lambda x: x['c'] * x['d']
            , ratio = lambda x: x['c'] / x.groupby(['a','b']) \
                      .transform('sum')['prod_c_d']  )

此示例使用pandas方法链接。 有关如何使用方法链接来复制更多信息dplyr工作流程见本博文。

使用apply()和groupby()的方法对我不起作用，因为它似乎不具有适应性。 例如，如果我们从lambda表达式中删除gc/ ，它就不起作用。

df['ratio'] = df.groupby(['a','b'], group_keys=False)\
    .apply(lambda g: (g.c * g.d).sum() )

Python pandas相当于R groupby mutate

问题描述

2 个解决方案

解决方案1
20 已采纳 2016-12-02 01:19:16

解决方案2
6 2019-01-04 08:06:38

Python pandas相当于R groupby mutate

问题描述

2 个解决方案

解决方案1 20 已采纳 2016-12-02 01:19:16

解决方案2 6 2019-01-04 08:06:38

解决方案1
20 已采纳 2016-12-02 01:19:16

解决方案2
6 2019-01-04 08:06:38