簡體 English 中英

聚類您的時間序列數據

[英]Cluster your time-series data

原文 2015-11-13 05:45:56 7 1 r/ time-series/ cluster-analysis/ correlation

我有12個消費者的時間序列數據。 對應於12個使用者（名為a ... l ）的數據為

我想對這些消費者進行聚類，以便我可以知道哪些消費者具有最相似的消費行為。 因此，我發現了聚類方法pamk ，它可以自動計算輸入數據中的聚類數量。

我假設只有兩個選項可以計算任意兩個時間序列之間的距離，即Euclidean和DTW 。 我嘗試了兩個，但得到了不同的群集。 現在的問題是我應該依靠哪一個？ 為什么呢？

當我使用Eulidean距離時，得到以下簇：

並使用DTW距離

結論：在這種情況下，您將如何決定哪種聚類方法最好？

注意：我在交叉驗證中也曾問過同樣的問題。

1 個解決方案

上面的時間序列看起來都不像我。 你看到任何圖案嗎？ 也許沒有模式？
集群可視化表明也沒有集群 。 b和l似乎是最不尋常的異常值； 其次是d,e,h ; 但那里沒有集群。
還可以嘗試分層聚類。 樹狀圖可能更容易理解。

但是無論哪種方式，都可能沒有集群 。 您需要為此結果做好准備，並將其視為有效的假設。 仔細檢查任何結果 。如您所見，pam將始終返回結果，並且您絕對沒有辦法確定哪個結果比另一個結果更“正確”（最有可能的是， 兩個都不正確 ，並且您都不應該依靠它來回答您的問題）。