簡體   English   中英

K-means聚類解釋

[英]K-means clustering interpretation

我有 3 個簇對圖,其中包含“Av. Mon. Hrs”、“Sat. Lvl”、“Last Eval”,並通過以下代碼找到了一個矩陣圖。

library("ggplot2") # Expanded plotting functionality over "lattice" package
x<-cbind(HR_left$average_montly_hours,HR_left$satisfaction_level,HR_left$last_evaluation)
kmfit<-kmeans(x,3,nstart=25) 
# Find the best 3 clusters using 25 random sets of (distinct) rows in x as initial centres.
pairs(x,col=(kmfit$cluster), labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

它說

  • 集群 1:配對圖將這個集群描述為員工平均每月工作時間低、滿意度范圍中等和最后評估低。
  • 集群 2:從配對圖中,該集群的特點是每月工作時間高、滿意度極低和評價高。
  • 集群3:從配對圖來看,該集群的特點是月工時高、滿意度高、評價高。

但我不明白關於它們如何解釋這三個發現的配對圖。

library(readr)
HR_comma_sep <- read_csv("https://stluc.manta.uqcloud.net/mdatascience/public/datasets/HumanResourceAnalytics/HR_comma_sep.csv")
HR_left<-HR_comma_sep[HR_comma_sep$left==1,]

library("ggplot2") # Expanded plotting functionality over "lattice" package 

 x<-cbind(HR_left$average_montly_hours,HR_left$satisfaction_level,HR_left$last_evaluation) 
 kmfit<-kmeans(x,3,nstart=25) 
 # Find the best 3 clusters using 25 random sets of (distinct) rows in x as initial centres. 

 pairs(x,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

“每月小時數”的數量與其他兩個變量的規模非常不同,因此會扭曲聚類。 “工作時間”的差異主導了其他兩個變量的差異。
通過除以均值、范圍或找到 z 分數來標准化每列。

原始代碼:

library(readr)
HR_comma_sep <- read_csv("https://stluc.manta.uqcloud.net/mdatascience/public/datasets/HumanResourceAnalytics/HR_comma_sep.csv")
HR_left<-HR_comma_sep[HR_comma_sep$left==1,]

library("ggplot2") 
x_org<-cbind(HR_left$average_montly_hours,
         HR_left$satisfaction_level,
         HR_left$last_evaluation) 

kmfit<-kmeans(x_org, 3, nstart = 25) 
pairs(x_org,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

在此處輸入圖片說明

使用縮放值重復計算:

x_scaled<-cbind(scale(HR_left$average_montly_hours),
                scale(HR_left$satisfaction_level),
                scale(HR_left$last_evaluation)) 
kmfit<-kmeans(x_scaled, 3) 
pairs(x_org,col= (kmfit$cluster),labels=c("Av. Mon. Hrs","Sat. Lvl","Last Eval."))

在此處輸入圖片說明

僅使用原始值,基於“每月小時數”差異的聚類,頂部圖顯示 2 個聚類(黑色和綠色)合並在一起,但不明顯。
縮放值並重復聚類后,現在可以清楚地顯示 3 個明顯不同的聚類(下圖)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM