K-means聚類解釋

Question

我有 3 個簇對圖，其中包含“Av. Mon. Hrs”、“Sat. Lvl”、“Last Eval”，並通過以下代碼找到了一個矩陣圖。

library("ggplot2") # Expanded plotting functionality over "lattice" package
x<-cbind(HR_left$average_montly_hours,HR_left$satisfaction_level,HR_left$last_evaluation)
kmfit<-kmeans(x,3,nstart=25) 
# Find the best 3 clusters using 25 random sets of (distinct) rows in x as initial centres.
pairs(x,col=(kmfit$cluster), labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

它說

集群 1：配對圖將這個集群描述為員工平均每月工作時間低、滿意度范圍中等和最后評估低。
集群 2：從配對圖中，該集群的特點是每月工作時間高、滿意度極低和評價高。
集群3：從配對圖來看，該集群的特點是月工時高、滿意度高、評價高。

但我不明白關於它們如何解釋這三個發現的配對圖。

library(readr)
HR_comma_sep <- read_csv("https://stluc.manta.uqcloud.net/mdatascience/public/datasets/HumanResourceAnalytics/HR_comma_sep.csv")
HR_left<-HR_comma_sep[HR_comma_sep$left==1,]

library("ggplot2") # Expanded plotting functionality over "lattice" package 

 x<-cbind(HR_left$average_montly_hours,HR_left$satisfaction_level,HR_left$last_evaluation) 
 kmfit<-kmeans(x,3,nstart=25) 
 # Find the best 3 clusters using 25 random sets of (distinct) rows in x as initial centres. 

 pairs(x,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

Answer 1

“每月小時數”的數量與其他兩個變量的規模非常不同，因此會扭曲聚類。 “工作時間”的差異主導了其他兩個變量的差異。
通過除以均值、范圍或找到 z 分數來標准化每列。

原始代碼：

library(readr)
HR_comma_sep <- read_csv("https://stluc.manta.uqcloud.net/mdatascience/public/datasets/HumanResourceAnalytics/HR_comma_sep.csv")
HR_left<-HR_comma_sep[HR_comma_sep$left==1,]

library("ggplot2") 
x_org<-cbind(HR_left$average_montly_hours,
         HR_left$satisfaction_level,
         HR_left$last_evaluation) 

kmfit<-kmeans(x_org, 3, nstart = 25) 
pairs(x_org,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

使用縮放值重復計算：

x_scaled<-cbind(scale(HR_left$average_montly_hours),
                scale(HR_left$satisfaction_level),
                scale(HR_left$last_evaluation)) 
kmfit<-kmeans(x_scaled, 3) 
pairs(x_org,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

僅使用原始值，基於“每月小時數”差異的聚類，頂部圖顯示 2 個聚類（黑色和綠色）合並在一起，但不明顯。
縮放值並重復聚類后，現在可以清楚地顯示 3 個明顯不同的聚類（下圖）。

K-means聚類解釋

問題描述

1 個解決方案

解決方案1
2 2019-07-16 16:05:55

K-means聚類解釋

問題描述

1 個解決方案

解決方案1 2 2019-07-16 16:05:55

解決方案1
2 2019-07-16 16:05:55