在兩行組中拆分給定列的差異

Question

在R中，如果我有數據框：

a <- c(1,1,2,2,3,3,4,4);b <- c(1,0,1,0,1,0,1,0); c <- c(1.5,2.5,30,20,100,150,0.7,0.3)    
df <- data.frame(a,b,c)
> df
  a b     c
1 1 1   1.5
2 1 0   2.5
3 2 1  30.0
4 2 0  20.0
5 3 1 100.0
6 3 0 150.0
7 4 1   0.7
8 4 0   0.3

我可以按矢量化方式將差異分為幾組：

df$d <- ifelse(df$b == 1, (df$c - c(df$c[-1], NA)) / 2, (df$c - c(NA, df$c[-nrow(df)])) / 2)
> df
  a b     c     d
1 1 1   1.5  -0.5
2 1 0   2.5   0.5
3 2 1  30.0   5.0
4 2 0  20.0  -5.0
5 3 1 100.0 -25.0
6 3 0 150.0  25.0
7 4 1   0.7   0.2
8 4 0   0.3  -0.2

在大熊貓中使用相同的數據框，是否有類似的方法來實現這些結果？

df = pd.DataFrame({'a': [1,1,2,2,3,3,4,4], 'b': [1,0,1,0,1,0,1,0], 'c': [1.5,2.5,30,20,100,150,0.7,0.3]})

Answer 1

假設每個組只有2行，那么這僅僅是與均值之差。 我使用assign創建數據框的副本，並為該副本分配一個新列。

df.assign(d=df.groupby('a').c.transform('mean').rsub(df.c))

   a  b      c     d
0  1  1    1.5  -0.5
1  1  0    2.5   0.5
2  2  1   30.0   5.0
3  2  0   20.0  -5.0
4  3  1  100.0 -25.0
5  3  0  150.0  25.0
6  4  1    0.7   0.2
7  4  0    0.3  -0.2

您可以就地完成同一件事

df['d'] = df.groupby('a').c.transform('mean').rsub(df.c)

Answer 2

1.使用np.where和.shift

In [1238]: df['d'] = np.where(df.b ==1, 
                              (df.c - df.c.shift(-1))/2, 
                              (df.c - df.c.shift(1))/2)

In [1239]: df
Out[1239]:
   a  b      c     d
0  1  1    1.5  -0.5
1  1  0    2.5   0.5
2  2  1   30.0   5.0
3  2  0   20.0  -5.0
4  3  1  100.0 -25.0
5  3  0  150.0  25.0
6  4  1    0.7   0.2
7  4  0    0.3  -0.2

2.或者使用df.c.diff(n)代替df.c - df.c.shift(n)

In [1244]: np.where(df.b ==1, df.c.diff(-1)/2, df.c.diff(1)/2)
Out[1244]: array([ -0.5,   0.5,   5. ,  -5. , -25. ,  25. ,   0.2,  -0.2])

Answer 3

對於您的R代碼，您可以更改為此。

 df%>%group_by(a)%>%dplyr::mutate(A=ifelse(b==1,(c-shift(c,1,type='lead'))/2,(c-shift(c,1,type = 'lag'))/2))
# A tibble: 8 x 4
# Groups:   a [4]
      a     b     c     A
  <dbl> <dbl> <dbl> <dbl>
1     1     1   1.5  -0.5
2     1     0   2.5   0.5
3     2     1  30.0   5.0
4     2     0  20.0  -5.0
5     3     1 100.0 -25.0
6     3     0 150.0  25.0
7     4     1   0.7   0.2
8     4     0   0.3  -0.2

對於Python，

df['d']=-df.groupby('a')['c'].diff().bfill()/2*df.b.replace({0:-1})


Out[95]: 
   a  b      c     d
0  1  1    1.5  -0.5
1  1  0    2.5   0.5
2  2  1   30.0   5.0
3  2  0   20.0  -5.0
4  3  1  100.0 -25.0
5  3  0  150.0  25.0
6  4  1    0.7   0.2
7  4  0    0.3  -0.2

在兩行組中拆分給定列的差異

問題描述

3 個解決方案

解決方案1
3 已采納 2017-08-08 19:38:26

解決方案2
3 2017-08-08 19:41:47

解決方案3
1 2017-08-08 21:05:07

在兩行組中拆分給定列的差異

問題描述

3 個解決方案

解決方案1 3 已采納 2017-08-08 19:38:26

解決方案2 3 2017-08-08 19:41:47

解決方案3 1 2017-08-08 21:05:07

解決方案1
3 已采納 2017-08-08 19:38:26

解決方案2
3 2017-08-08 19:41:47

解決方案3
1 2017-08-08 21:05:07