根據其他行（熊貓）更新一行的列

Question

我有一個如下數據框：

Time   col1  col2  col3 
2      a     x     10
3      b     y     11
1      a     x     10
6      c     z     12
20     c     x     13
23     a     y     24
14     c     x     13     
16     b     y     11
...

並想根據數據幀的其他行向數據幀的每一行添加一列，這是數據幀之外的內容：

Time   col1  col2  col3 cumVal
2      a     x     10   2
3      b     y     11   1
1      a     x     10   2
6      c     z     12   1
20     c     x     13   2
23     a     y     24   1
14     c     x     13   2
16     b     y     11   1
...

我嘗試一下：

df['cumVal'] = 0
for index, row in df.iterrows():
   min1 = row['Time']-10
   max1 = row['Time']+10
   ndf = df[(df.col1 == row.col1)&(df.col2 == row.col2)& (df.col3 == 
   row.col3)]
   df.iloc[index]['cumVal'] = len(ndf.query('@min1 <= Time <= @max1'))

但這很慢，有人可以更改我的代碼以使其更快嗎？

Answer 1

您可以使用groupby上“COL1”，“COL2”和“COL3”，並在transform每組使用np.subtract作為的ufunc outer ，計算在這組列“時間”值之間的所有差異，然后如果np.abs 10，並且np.sum在axis = 0上，則可以計算每個值在+/- 10范圍內的值。

import numpy as np
df['cumVal'] = (df.groupby(['col1','col2','col3'])['Time']
                  .transform(lambda x: (np.abs(np.subtract.outer(x, x))<=10).sum(0)))
print (df)
   Time col1 col2  col3  cumVal
0   2.0    a    x  10.0     2.0
1   3.0    b    y  11.0     1.0
2   1.0    a    x  10.0     2.0
3   6.0    c    z  12.0     1.0
4  20.0    c    x  13.0     2.0
5  23.0    a    y  24.0     1.0
6  14.0    c    x  13.0     2.0
7  16.0    b    y  11.0     1.0

Answer 2

它應具有更好的性能：

df['cumVal'] = 0
for index, row in df.iterrows():
   min1 = row['Time']-10
   max1 = row['Time']+10
   ndf = df[(df.Time>min1)&(df.Time<max1)&(df.col1 == row.col1)&(df.col2 == row.col2)& (df.col3 == 
   row.col3)]
   df.iloc[index]['cumVal'] = len(ndf)

根據其他行（熊貓）更新一行的列

問題描述

2 個解決方案

解決方案1
1 已采納 2019-02-28 20:04:52

解決方案2
0 2019-02-28 18:45:17

根據其他行（熊貓）更新一行的列

問題描述

2 個解決方案

解決方案1 1 已采納 2019-02-28 20:04:52

解決方案2 0 2019-02-28 18:45:17

解決方案1
1 已采納 2019-02-28 20:04:52

解決方案2
0 2019-02-28 18:45:17