簡體   English   中英

聚類以從計數數據中查找最可能的時間段

[英]Clustering To Find Most Likely Time Period From Count Data

所以我有一個按小時計算的多個 ID 的事件計數的直方圖。 我需要能夠定義一種方法來對計數進行聚類,以找出計數最有可能發生的時間。 從那里,能夠識別最有可能發生的 ID。 任何人都可以幫助我指出正確的方向。 我很抱歉,因為我對聚類還比較陌生。 謝謝

直方圖

看你的情節,我想你可以試試高斯混合

import seaborn as sns; sns.set()
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.mixture import GaussianMixture

Y = np.random.poisson(lam=(10., 20.), size=(200, 2))
Y.resize(400,1)
df=pd.DataFrame(data=Y)
df.columns = ['Time']
sns.distplot(df)

在此處輸入圖片說明

您可以在其中一個集群中獲取時間:

df.loc[df['labels']==0].Time

使用類似的東西,我們繪制:

sns.distplot( df.loc[df['labels']==0].Time , color="skyblue", label="0")
sns.distplot( df.loc[df['labels']==1].Time , color="red", label="1")
plt.legend()

從模型中,您可以知道最可能的時間(或最大)時間,

gmm.means_.flatten()
#array([24.18011343, 10.2643123 ])

這與我們模擬的相差不遠。 然后,您可以預測使用這些均值和泊松分布的概率。

在此處輸入圖片說明

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM