[英]What is the best way for clustering data containing categorical and numeric variables with python
[英]What is the best python approach/model for clustering dataset with many discrete and categorical variables?
年齡 | 性別 | 商務旅行 | 部門 | 距離 | 教育 | 婚姻狀況 | 薪水 | 工作年限 | 滿意 |
---|---|---|---|---|---|---|---|---|---|
41 | 女性 | 頻繁 | 銷售量 | 12 | 5 | 已婚 | 5000 | 4 | 4 |
24 | 男性 | 很少 | 人力資源 | 22 | 4 | 單身的 | 3400 | 1 | 3 |
滿意度 - 從 1 到 5 的等級,5 是最滿意的。
距離 - 從家到工作場所的距離
以上是數據樣本。
Kmeans 或 Kmodes 是否適合這樣的數據集?
感謝您提前提供任何答案。
Kmean 聚類並不理想,因為它無法處理離散數據
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.