[英]R and SAS : different results for clustering analysis
我正在使用R和SAS进行聚类分析,我的结果确实不同。
我知道结果是随机的,所以有点不同是正常的,但差别很大。
我使用SAS着名的CARS数据集进行测试。
用R,我这样做:
kmeans(CARS[,c(8,10)],5)
结果:(在_SS / total_SS = 93.2%之间)
使用SAS,我这样做:
proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize
Horsepower ; run;
结果:预期的近似全部R-Squared = 0.96079
差异较小,但仍然存在差异。 我进行了几次测试,结果仍然相同。
这种差异来自哪里?
从文档中可以肯定:
这些都依赖于不同的算法。 SAS文档模糊地描述了“最近质心分类”的方法。 我对此没有任何实质性的了解,但也许可以查看其他集群函数(如hclust
)或其他软件包以找到可比的东西。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.