簡體   English   中英

過去 30 天與 lambda function 與 python 的聚合

[英]aggregation with lambda function for last 30 days with python

我正在嘗試獲取一個名為“sales_30d_lag”的列,其中每個 user_id 上一個“日期”的最后 30 天的總銷售額。 當我運行此代碼時,我得到了結果,但是當我將它與基於 user_id 的原始 dataframe 合並時,“sales_30d_lag”列顯示 NaN 值 - 對出了什么問題有任何想法嗎?

df_30d_lag= df.groupby(['user_ID']).apply(lambda df: df[(df['Date'] \
>=(df['Date'].max() -pd.to_timedelta(30, unit='d')))].agg({'sales': 'sum'}))
.rename(columns={'sales':'sales_30d_lag'})

沒有數據示例(和合並代碼)很難猜測,lambda 本身看起來不錯 - 我在這個數據集上測試了它:

from io import StringIO
data = """user_ID,Date,sales
1,2012-09-01 10:00:00,10.0
1,2012-09-02 11:00:00,10.0
1,2012-09-03 12:00:00,10.0
1,2012-10-01 13:00:00,10.0
1,2012-10-02 14:00:00,10.0
1,2012-10-03 15:00:00,10.0
1,2012-10-04 16:00:00,10.0
1,2012-11-01 17:00:00,10.0
2,2012-09-01 18:00:00,20.0
2,2012-09-02 19:00:00,20.0
2,2012-09-03 20:00:00,20.0
2,2012-09-04 21:00:00,20.0
2,2012-09-05 22:00:00,20.0
2,2012-09-06 23:00:00,
3,2012-09-06 23:00:00,30.0"""
df = pd.read_csv(StringIO(data), engine="python", parse_dates=["Date"])

代碼給出了正確的結果:

df_30d_lag = df.groupby(['user_ID']).apply(lambda df: \
        df[(df['Date'] >=(df['Date'].max() - pd.to_timedelta(30, unit='d')))]\
            .agg({'sales': 'sum'}))\
    .rename(columns={'sales':'sales_30d_lag'})

#       sales_30d_lag
#user_ID    
#1      30.0
#2      100.0
#3      30.0

也許,合並本身就是一個問題 - df_30d_laguser_ID索引。 要合並它,您必須重置索引並合user_ID或執行以下操作:

df.merge(df_30d_lag, left_on='user_ID', right_index=True)

#   user_ID Date                sales   sales_30d_lag
#0  1       2012-09-01 10:00:00 10.0    30.0
#1  1       2012-09-02 11:00:00 10.0    30.0
#2  1       2012-09-03 12:00:00 10.0    30.0
#3  1       2012-10-01 13:00:00 10.0    30.0
#4  1       2012-10-02 14:00:00 10.0    30.0
#5  1       2012-10-03 15:00:00 10.0    30.0
#6  1       2012-10-04 16:00:00 10.0    30.0
#7  1       2012-11-01 17:00:00 10.0    30.0
#8  2       2012-09-01 18:00:00 20.0    100.0
#9  2       2012-09-02 19:00:00 20.0    100.0
#10 2       2012-09-03 20:00:00 20.0    100.0
#11 2       2012-09-04 21:00:00 20.0    100.0
#12 2       2012-09-05 22:00:00 20.0    100.0
#13 2       2012-09-06 23:00:00 NaN     100.0
#14 3       2012-09-06 23:00:00 30.0    30.0

如果不是這種情況,請添加數據示例,以便我們更好地重現它。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM