聚類以從計數數據中查找最可能的時間段

Question

所以我有一個按小時計算的多個 ID 的事件計數的直方圖。 我需要能夠定義一種方法來對計數進行聚類，以找出計數最有可能發生的時間。 從那里，能夠識別最有可能發生的 ID。 任何人都可以幫助我指出正確的方向。 我很抱歉，因為我對聚類還比較陌生。 謝謝

直方圖

Answer 1

看你的情節，我想你可以試試高斯混合

import seaborn as sns; sns.set()
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.mixture import GaussianMixture

Y = np.random.poisson(lam=(10., 20.), size=(200, 2))
Y.resize(400,1)
df=pd.DataFrame(data=Y)
df.columns = ['Time']
sns.distplot(df)

您可以在其中一個集群中獲取時間：

df.loc[df['labels']==0].Time

使用類似的東西，我們繪制：

sns.distplot( df.loc[df['labels']==0].Time , color="skyblue", label="0")
sns.distplot( df.loc[df['labels']==1].Time , color="red", label="1")
plt.legend()

從模型中，您可以知道最可能的時間（或最大）時間，

gmm.means_.flatten()
#array([24.18011343, 10.2643123 ])

這與我們模擬的相差不遠。 然后，您可以預測使用這些均值和泊松分布的概率。

聚類以從計數數據中查找最可能的時間段

問題描述

1 個解決方案

解決方案1
1 2020-02-06 23:00:33

聚類以從計數數據中查找最可能的時間段

問題描述

1 個解決方案

解決方案1 1 2020-02-06 23:00:33

解決方案1
1 2020-02-06 23:00:33