簡體   English   中英

Elbow 曲線在 K-Means 中找到 K 的可靠性如何?

[英]How reliable is the Elbow curve in finding K in K-Means?

所以我試圖使用 Elbow 曲線在 K-Means 聚類中找到最佳“K”(聚類數)的值。

對數據集(1467 行)中文本列的平均向量(使用 Word2Vec)進行聚類。 但是查看我的文本數據,我可以清楚地發現數據可以分為 3 個以上的組。

我讀到的推理是在保持平方誤差總和 (SSE) 較低的同時具有較小的 k 值。 有人能告訴我肘部曲線有多可靠嗎? 另外,如果我遺漏了什么。

附上肘部曲線以供參考。 我還嘗試將它繪制到 70 個集群,探索性的。 在此處輸入圖片說明 .

在此處輸入圖片說明

“肘部”甚至沒有明確定義。 那么如何才能可靠呢?

您可以通過將數據拆分為 k 個集群的預期下降來“標准化”這些值,它會變得更具可讀性。 不幸的是,我忘記了那個的確切名稱。Calinski 和 Harabasz (1974) 方差比標准? 如果我記錯了名字,那本質上是一個重新按比例縮放的版本,有道理。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM