R和SAS：聚类分析的结果不同

Question

我正在使用R和SAS进行聚类分析，我的结果确实不同。

我知道结果是随机的，所以有点不同是正常的，但差别很大。

我使用SAS着名的CARS数据集进行测试。

用R，我这样做：

kmeans(CARS[,c(8,10)],5)

结果：（在_SS / total_SS = 93.2％之间）

使用SAS，我这样做：

proc fastclus data=sashelp.cars maxclusters=5 ; var EngineSize 
Horsepower ; run;

结果：预期的近似全部R-Squared = 0.96079

差异较小，但仍然存在差异。 我进行了几次测试，结果仍然相同。

这种差异来自哪里？

Answer 1

从文档中可以肯定：

R： http ： //stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html
SAS： http ： //support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_fastclus_sect002.htm

这些都依赖于不同的算法。 SAS文档模糊地描述了“最近质心分类”的方法。 我对此没有任何实质性的了解，但也许可以查看其他集群函数（如hclust ）或其他软件包以找到可比的东西。