[英]Clustering To Find Most Likely Time Period From Count Data
所以我有一個按小時計算的多個 ID 的事件計數的直方圖。 我需要能夠定義一種方法來對計數進行聚類,以找出計數最有可能發生的時間。 從那里,能夠識別最有可能發生的 ID。 任何人都可以幫助我指出正確的方向。 我很抱歉,因為我對聚類還比較陌生。 謝謝
看你的情節,我想你可以試試高斯混合
import seaborn as sns; sns.set()
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.mixture import GaussianMixture
Y = np.random.poisson(lam=(10., 20.), size=(200, 2))
Y.resize(400,1)
df=pd.DataFrame(data=Y)
df.columns = ['Time']
sns.distplot(df)
您可以在其中一個集群中獲取時間:
df.loc[df['labels']==0].Time
使用類似的東西,我們繪制:
sns.distplot( df.loc[df['labels']==0].Time , color="skyblue", label="0")
sns.distplot( df.loc[df['labels']==1].Time , color="red", label="1")
plt.legend()
從模型中,您可以知道最可能的時間(或最大)時間,
gmm.means_.flatten()
#array([24.18011343, 10.2643123 ])
這與我們模擬的相差不遠。 然后,您可以預測使用這些均值和泊松分布的概率。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.