簡體   English   中英

如何在熊貓中繪制日期的核密度圖?

[英]How to plot kernel density plot of dates in Pandas?

我有一個pandas數據框,其中每個觀察都有一個日期(作為datetime [64]格式的條目列)。 這些日期分布在大約5年的時間內。 我想繪制所有觀測日期的核密度圖,其中年份標記在x軸上。

我已經想出如何創建相對於某個參考日期的時間增量,然后創建每個觀測值和參考日期之間的小時/天/年數的密度圖:

df['relativeDate'].astype('timedelta64[D]').plot(kind='kde')

但這並不是我想要的:如果我轉換為年度增量,那么x軸是正確的,但我失去了年內的變化。 但是,如果我采用較小的時間單位,如小時或天,x軸標簽更難解釋。

在熊貓中使這項工作最簡單的方法是什么?

受@JohnE的回答啟發,將日期轉換為數值的另一種方法是使用.toordinal()

import pandas as pd
import numpy as np

# simulate some artificial data
# ===============================
np.random.seed(0)
dates = pd.date_range('2010-01-01', periods=31, freq='D')
df = pd.DataFrame(np.random.choice(dates,100), columns=['dates'])
# use toordinal() to get datenum
df['ordinal'] = [x.toordinal() for x in df.dates]

print(df)

        dates  ordinal
0  2010-01-13   733785
1  2010-01-16   733788
2  2010-01-22   733794
3  2010-01-01   733773
4  2010-01-04   733776
5  2010-01-28   733800
6  2010-01-04   733776
7  2010-01-08   733780
8  2010-01-10   733782
9  2010-01-20   733792
..        ...      ...
90 2010-01-19   733791
91 2010-01-28   733800
92 2010-01-01   733773
93 2010-01-15   733787
94 2010-01-04   733776
95 2010-01-22   733794
96 2010-01-13   733785
97 2010-01-26   733798
98 2010-01-11   733783
99 2010-01-21   733793

[100 rows x 2 columns]    

# plot non-parametric kde on numeric datenum
ax = df['ordinal'].plot(kind='kde')
# rename the xticks with labels
x_ticks = ax.get_xticks()
ax.set_xticks(x_ticks[::2])
xlabels = [datetime.datetime.fromordinal(int(x)).strftime('%Y-%m-%d') for x in x_ticks[::2]]
ax.set_xticklabels(xlabels)

在此輸入圖像描述

我想有一些更好和自動的方法來做到這一點,但如果沒有,那么這應該是一個體面的解決方法。 首先,讓我們設置一些示例數據:

np.random.seed(479)
start_date = '2011-1-1'
df = pd.DataFrame({ 'date':np.random.choice( 
                    pd.date_range(start_date, periods=365*5, freq='D'), 50) })

df['rel'] = df['date'] - pd.to_datetime(start_date)
df.rel = df.rel.astype('timedelta64[D]')

        date   rel
0 2014-06-06  1252
1 2011-10-26   298
2 2013-08-24   966
3 2014-09-25  1363
4 2011-12-23   356

如您所見,'rel'只是自開始日起的天數。 它本質上是一個整數,所以你真正需要做的就是根據開始日期對其進行標准化。

df['year_as_float'] = pd.to_datetime(start_date).year + df.rel / 365.

        date   rel  year_as_float
0 2014-06-06  1252    2014.430137
1 2011-10-26   298    2011.816438
2 2013-08-24   966    2013.646575
3 2014-09-25  1363    2014.734247
4 2011-12-23   356    2011.975342

你需要稍微調整一個不是從1月1日開始的日期。這也忽略了任何閏年,如果你只是在5年內制作一個KDE圖,這實際上不是一個實際問題,但它可能很重要取決於還有什么你可能想做的。

這是情節

df['year_as_float']d.plot(kind='kde')

在此輸入圖像描述

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM