簡體   English   中英

計算熊貓系列中相同符號的累積值和順序值

[英]Count cumulative and sequential values of the same sign in Pandas series

我編寫了這段代碼,用於計算數據幀列中的符號變化(從正到負,反之亦然)以來的時間。

df = pd.DataFrame({'x': [1, -4, 5, 1, -2, -4, 1, 3, 2, -4, -5, -5, -6, -1]})

for column in df.columns:
    days_since_sign_change = [0]
    for k in range(1, len(df[column])):
        last_different_sign_index = np.where(np.sign(df[column][:k]) != np.sign(df[column][k]))[0][-1]
        days_since_sign_change.append(abs(last_different_sign_index- k))
    df[column+ '_days_since_sign_change'] = days_since_sign_change        
    df[column+ '_days_since_sign_change'][df[column] < 0] = df[column+ '_days_since_sign_change'] *-1 
# this final stage allows the "days_since_sign_change" column to also indicate if the sign changed 
# from - to positive or from positive to negative.

In [302]:df
Out[302]: 
    x  x_days_since_sign_change
0   1                         0
1  -4                        -1
2   5                         1
3   1                         2
4  -2                        -1
5  -4                        -2
6   1                         1
7   3                         2
8   2                         3
9  -4                        -1
10 -5                        -2
11 -5                        -3
12 -6                        -4
13 -1                        -5

問題 :對於大型數據集(150,000 * 50,000),python代碼非常慢。 我怎樣才能加快速度?

您當然可以無循環地執行此操作。 如果x中的值小於0,則創建一個帶有-1的符號列,否則創建1。 然后,根據當前行與上一行中的值之差將該符號列分組,並獲得累加和。

df['x_days_since_sign_change'] = (df['x'] > 0).astype(int).replace(0, -1)

df.iloc[0,1] = 0
df.groupby((df['x_days_since_sign_change'] != df['x_days_since_sign_change'].shift()).cumsum()).cumsum()


    x   x_days_since_sign_change
0   1   0
1   -4  -1
2   5   1
3   6   2
4   -2  -1
5   -6  -2
6   1   1
7   4   2
8   6   3
9   -4  -1
10  -9  -2
11  -14 -3
12  -20 -4
13  -21 -5

您可以使用cumcount

s=df.groupby(df.x.gt(0).astype(int).diff().ne(0).cumsum()).cumcount().add(1)*df.x.gt(0).replace({True:1,False:-1})
s.iloc[0]=0
s
Out[645]: 
0     0
1    -1
2     1
3     2
4    -1
5    -2
6     1
7     2
8     3
9    -1
10   -2
11   -3
12   -4
13   -5
dtype: int64

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM