簡體   English   中英

在定義簇數時應考慮是膝蓋還是肘部?

[英]is it the knee or the elbow that should be considered in the plot for defining the number of clusters?

我正在使用彎頭方法,輪廓線,並嘗試從數據中找到最佳km簇數。 現在,對於大多數軟件包,如果我考慮wss(在相似性得分之內)或輪廓,則給出3分的PAM,Kmeans,clara。 通過Hubert分析,理想情況下,我得到2個群集。 下面的命令只有奇怪的事情給了我一個圖,對我來說有點混亂。 我應該將其視為3個群集還是4個群集。如果有人可以在這里給我一些反饋。

使用的代碼

    wss <- (nrow(scale(df))-1)*sum(apply(scale(df),2,var))
    for (i in 2:10) wss[i] <- sum(kmeans(scale(df),
                                                                                centers=i)$withinss) 
fviz_nbclust(scale(df), kmeans, method = "wss")

我還嘗試放置圖像,以便可以告訴我應該是3還是4,這是此處的群集編號。 理想情況下,我認為應該為4,因為WSS的全部要點是選擇SSE大致平坦的k。

在此處輸入圖片說明

基本思想是,低的“在平方和內”是一個好的模型的信號(就誤差而言)。 但是,簇越多,該平方誤差總和(SSE)的值越低。

簡而言之:“當您看到SSE下降的速率(集群數量更多)的速度放慢時,凍結集群數量將是一個好時機”。

因此,它是肘部 ,在您的情況下為4 ,因為SSE的下降在4之后開始減緩。

另請參閱: 在這里這里

在Wikipedia上,可以很好地概述如何確定簇數: 此處

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM