[英]Time Series Clustering With Dynamic Time Warping Distance (DTW) with dtwclust
我正在嘗試使用dtwclust
包執行具有動態時間扭曲距離(DTW)的時間序列聚類。
我用這個功能,
dtwclust(data = NULL, type = "partitional", k = 2L, method = "average",
distance = "dtw", centroid = "pam", preproc = NULL, dc = NULL,
control = NULL, seed = NULL, distmat = NULL, ...)
我將數據保存為列表,它們的長度不同。 像下面的例子,它是一個時間序列。
$a
[1] 0 0 0 0 2 3 6 7 8 9 11 13
$b
[1] 0 1 1 2 4 7 8 11 13 15 17 19 22 25 28 31 34 35
$c
[1] 1 2 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 6 6 6 6 7 7 8 8 9 10 10 12 14 15 17 19
$d
[1] 0 0 0 0 0 1 2 4 4 4
$e
[1] 0 1 1 3 5 6 9 12 14 17 19 20 22 24 28 31 32 34
現在,我的問題是
(1)我只能為我的距離選擇dtw
, dtw2
或sbd
,為我的質心選擇dba
, shape
或pam
(因為列表的長度不同)。 但是,我不知道哪個距離和質心是正確的。
(2)我有一些圖表,但我不知道如何選擇正確合理的圖表。
k = 6, distance = dtw, centroid = dba
:
k = 4, distance = dtw, centroid = dba
(群集中心似乎有線?)
我已經做了所有的組合,k從4到13 ...但我不知道如何選擇合適的...
您不希望“選擇”參數,而是評估結果。 因此,您需要選擇一個評估聚類的標准。 您基本上改變了距離和k等參數,然后使用損失函數評估聚類。 通常,評估聚類有兩種可能性:
外部評估:
您可以使用標簽(不用於聚類,因此被視為外部)來計算假陽性,真陽性等形式的准確性,這最終將導致您進行AUC測量 。
您的數據似乎沒有標記,因此您無法計算任何准確性,這將是最簡單的方法。
內部評估:
或者,您可以嘗試最大化群集內相似性(群集成員與特定群集的所有其他成員的平均距離)並最小化群集間相似性(群集成員與其群集之外的所有元素的平均距離) )。
有關詳細信息,請訪問:
http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html
http://www.ims.uni-stuttgart.de/institut/mitarbeiter/schulte/theses/phd/algorithm.pdf
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.