簡體   English   中英

熊貓將功能應用於按天分組的數據

[英]pandas apply function to data grouped by day

我有一個看起來像這樣的數據集:

date,value1,value2
2016-01-01 00:00:00,3,0
2016-01-01 01:00:00,0,0
2016-01-01 02:00:00,0,0
2016-01-01 03:00:00,0,0
2016-01-01 04:00:00,0,0
2016-01-01 05:00:00,0,0
2016-01-01 06:00:00,0,0
2016-01-01 07:00:00,0,2
2016-01-01 08:00:00,3,11
2016-01-01 09:00:00,14,14
2016-01-01 10:00:00,12,13
2016-01-01 11:00:00,11,13
2016-01-01 12:00:00,11,9
2016-01-01 13:00:00,17,21
2016-01-01 14:00:00,9,22
2016-01-01 15:00:00,10,9
2016-01-01 16:00:00,11,9
2016-01-01 17:00:00,8,8
2016-01-01 18:00:00,4,2
2016-01-01 19:00:00,5,7
2016-01-01 20:00:00,5,5
2016-01-01 21:00:00,3,4
2016-01-01 22:00:00,2,4
2016-01-01 23:00:00,2,4
2016-01-02 00:00:00,0,0
2016-01-02 01:00:00,0,0
2016-01-02 02:00:00,0,0
2016-01-02 03:00:00,0,0
2016-01-02 04:00:00,0,0
2016-01-02 05:00:00,0,0
2016-01-02 06:00:00,1,0
2016-01-02 07:00:00,0,0
2016-01-02 08:00:00,0,0
2016-01-02 09:00:00,0,0
2016-01-02 10:00:00,0,0
2016-01-02 11:00:00,0,0
2016-01-02 12:00:00,0,0
2016-01-02 13:00:00,1,0
2016-01-02 14:00:00,0,0
2016-01-02 15:00:00,0,0
2016-01-02 16:00:00,0,0
2016-01-02 17:00:00,0,0
2016-01-02 18:00:00,0,0
2016-01-02 19:00:00,0,0
2016-01-02 20:00:00,1,0
2016-01-02 21:00:00,0,0
2016-01-02 22:00:00,0,0
2016-01-02 23:00:00,0,0

我想做的是每天計算出value1和value2之間的均方根值。 所以基本上,我想運行該函數31次(每天一次),輸入將是我嘗試使用的一天的24個條目(每小時一個)

rmse(df.groupby([df.index.day]).mean().value1, 
    df.groupby([df.index.day]).mean().value2)

但這給了我一個單一的價值,我想要的是一張每天均方根的清單,例如

daily_rmse = [rmse01_01, rmse01_02, ..., rmse01_31]

您無需繼續重做groupby而需要在它的每個元素上而不是在均值序列上計算rmse

gb = df.groupby(df.index.date)
mean_by_day = gb.mean()
rmse_by_day = gb.std(ddof=0)

我懷疑您要應用的RMSE公式完全等於通過元素數量(而不是元素數量-1,這是熊貓的默認設置)標准化的標准偏差。

現在,您應該可以訪問mean_by_day.value1std_by_day.value1來獲取所需的值。

我為mean_by_day得到的值是

              value1    value2
2016-01-01  5.416667  6.541667
2016-01-02  0.125000  0.000000

同樣,對於rmse_by_day我得到

              value1    value2
2016-01-01  5.139039  6.422481
2016-01-02  0.330719  0.000000

請注意,使用的是索引的date字段,而不是使用day ,如果數據持續多個月,則可以重復使用該字段。

使用sklearnmean_squared_error

from sklearn.metrics import mean_squared_error

df.groupby(df.date.dt.date).apply(
    lambda x: mean_squared_error(x.value1, x.value2) ** .5)

date
2016-01-01    3.494043
2016-01-02    0.377964
dtype: float64

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM