根據其他數據框上的條件創建數據框

Question

我有兩個數據框：s-1列，d-3列

s = {0: [0, 0.3, 0.5, -0.1, -0.2, 0.7, 0]}
d = {0: [0.1, 0.2, -0.2, 0, 0, 0, 0], 1: [0.3, 0.4, -0.7, 0, 0.8, 0, 0.1], 2: [-0.5, 0.4, -0.1, 0.5, 0.5, 0, 0]}
sd = pd.DataFrame(data=s)
dd = pd.DataFrame(data=d)
result = pd.DataFrame()

我想基於這兩個值獲取結果數據框（1列）：
1.當sd = 0值sd = 0時， sd = 0 0
2.當sd != 0檢查該行是否在dd中至少有一個非零值，如果是，則-獲得非零值的平均值，如果否，則返回OK

這是我想要得到的：

results:
0   0
1   -0,033
2   -0,333
3   0,5
4   0,65
5   OK
6   0

我知道我可以使用dd[dd != 0].mean(axis=1)來計算該行的非零值的平均值，但是我不知道如何將所有這三個條件連接在一起

Answer 1

兩次使用np.where

np.where(sd[0]==0,0,np.where(dd.eq(0).all(1),'OK',dd.mask(dd==0).mean(1)))
Out[232]: 
array(['0', '0.3333333333333333', '-0.3333333333333333', '0.5', '0.65',
       'OK', '0'], dtype='<U32')

Answer 2

使用numpy.select ：

c1 = sd[0].eq(0)
c2 = dd.eq(0).all(1)

res = np.select([c1, c2], [0, 'OK'], dd.where(dd.ne(0)).mean(1))
pd.Series(res)

0                      0
1     0.3333333333333333
2    -0.3333333333333333
3                    0.5
4                   0.65
5                     OK
6                      0
dtype: object

Answer 3

謝謝您的幫助。 我以完全不同的方式做到了。 我用了：

res1 = pd.Series(np.where(sd[0]==0, 0, dd[dd != 0].mean(axis=1))).fillna('OK')

區別在於它返回浮點值（對於不是“ OK”的行），而不是字符串。 它似乎也快一點。

根據其他數據框上的條件創建數據框

問題描述

3 個解決方案

解決方案1
1 2019-03-22 15:41:34

解決方案2
1 2019-03-22 15:49:56

解決方案3
0 2019-03-23 11:30:22

根據其他數據框上的條件創建數據框

問題描述

3 個解決方案

解決方案1 1 2019-03-22 15:41:34

解決方案2 1 2019-03-22 15:49:56

解決方案3 0 2019-03-23 11:30:22

解決方案1
1 2019-03-22 15:41:34

解決方案2
1 2019-03-22 15:49:56

解決方案3
0 2019-03-23 11:30:22