如何計算每個唯一鍵的趨勢。數據幀

Question

我有一個帶2個cols的DataFrame

ColA| ColB 
D 2 
D 12 
D 15 
A 20 
A 40 
A 60 
C 60 
C 55 
C 70 
C 45 
L 45 
L 23 
L 10 
L 5

結果/輸出將是

D UP
A UP
C FLAT
L Down

其中UP是將所有相關權重相加的結果：每個密鑰的每個連續權重必須小於先前的權重。 你必須擁有UP的例子

Answer 1

這是一個簡單的技術，可能不適合所有情況，即：

def sum_t(x):
    # Compare the value with previous value
    m = x > x.shift() 
    # If all of them are increasing then return Up
    if m.sum() == len(m)-1:
        return 'UP'
    # if all of them are decreasing then return Down
    elif m.sum() == 0:
        return 'DOWN'
    # else return flat
    else:
        return 'FLAT'

df.groupby('ColA')['ColB'].apply(sum_t)

輸出：

ColA
A      UP
C    FLAT
D      UP
L    DOWN
Name: ColB, dtype: object

Answer 2

使用diff和crosstab

s=df.groupby('ColA').ColB.diff().dropna()#Dropna since the first value for all group is invalid 
pd.crosstab(df.ColA.loc[s.index],s>0,normalize = 'index' )[True].map({1:'Up',0:'Down'}).fillna('Flat')
Out[100]:
ColA
A      Up
C    Flat
D      Up
L    Down
Name: True, dtype: object

Answer 3

改變為@ Dark的想法，我首先計算GroupBy + diff然后在輸入自定義函數之前使用unique 。

然后使用基於min / max邏輯。

def calc_label(x):
    if min(x) >= 0:
        return 'UP'
    elif max(x) <= 0:
        return 'DOWN'
    else:
        return 'FLAT'

res = df.assign(C=df.groupby('ColA').diff().fillna(0))\
        .groupby('ColA')['C'].unique()\
        .apply(calc_label)

print(res)

ColA
A      UP
C    FLAT
D      UP
L    DOWN
Name: C, dtype: object

Answer 4

在自定義`def`使用`numpy.polyfit`

通過這種方式，您可以調整您將被稱為“FLAT”的漸變

def trend(x, flat=3.5):
    m = np.polyfit(np.arange(1, len(x)+1), x, 1)[0]
    if abs(m) < flat:
        return 'FLAT'
    elif m > 0:
        return 'UP'
    return 'DOWN'

df.groupby('ColA')['ColB'].apply(np.array).apply(trend)

Answer 5

解決方法是對每個ID關聯點應用線性回歸，並通過二維空間中id關聯點的斜率指定趨勢

import numpy as np
from sklearn import linear_model
def slope(x,min_slope,max_slope):
    reg = linear_model.LinearRegression()
    reg.fit(np.arange(len(x),x))
    slope =  reg.coef_[0][0]
    if slope < min_slope:
        return 'Down'
    if slope > max_slope:
         return 'Up'
    else 'Flat'
min_slope = -1
max_slope = 1
df['slopes'] = df.groupby('ColA').apply(lambda x: slope(x['ColB'],min_slope,max_slope))

如何計算每個唯一鍵的趨勢。數據幀

問題描述

5 個解決方案

解決方案1
4 2018-08-28 13:36:23

解決方案2
3 2018-08-28 13:39:44

解決方案3
2 2018-08-28 13:48:03

解決方案4
2 2018-08-28 14:00:57

在自定義`def`使用`numpy.polyfit`

解決方案5
1 2018-08-28 14:00:23

如何計算每個唯一鍵的趨勢。 數據幀

問題描述

5 個解決方案

解決方案1 4 2018-08-28 13:36:23

解決方案2 3 2018-08-28 13:39:44

解決方案3 2 2018-08-28 13:48:03

解決方案4 2 2018-08-28 14:00:57

在自定義def使用numpy.polyfit

解決方案5 1 2018-08-28 14:00:23

如何計算每個唯一鍵的趨勢。數據幀

解決方案1
4 2018-08-28 13:36:23

解決方案2
3 2018-08-28 13:39:44

解決方案3
2 2018-08-28 13:48:03

解決方案4
2 2018-08-28 14:00:57

在自定義`def`使用`numpy.polyfit`

解決方案5
1 2018-08-28 14:00:23