繁体 English 中英

sklearn.cluster.KMeans是否适合数据点顺序？

[英]Is sklearn.cluster.KMeans sensative to data point order?

原文 2017-12-02 05:12:46 2 1 python/ scikit-learn/ cluster-analysis/ k-means

正如在回答注意到这个职位有关功能缩放，KMEANS的某些（所有？）实现是为特征的数据点的顺序是敏感的。 根据sklearn.cluster.KMeans 文档， n_init仅更改质心的初始位置。 这意味着必须遍历一些特征数据点的混洗才能测试这是否是一个问题。 我的问题如下：

scikit-learn实现是否对发布所建议的排序敏感？
n_init会为我照顾吗？
如果我本人也愿意这样做，我应该根据最小惯量还是最好采用此处建议的平均值？
是否有一个好的规则来知道基于数据点的数量多少个随机排列是足够的？

更新：该问题最初询问的不是要素（列）顺序。 这是对链接文章中“对象”一词的误解。 它已更新，以询问有关数据点（行）的顺序。

1 个解决方案

K均值对特征顺序不敏感。

您所引用的帖子是关于规模而非顺序的。

如果查看kmeans方程，显然顺序无关紧要。

有研究（van Luxbourg，如果我没记错的话）本质上说，如果有良好的kmeans结果，那么必须很容易找到它。 如果多次运行kmeans时得到的结果截然不同，那么结果都不是很好。

有“ n选择k”个可能的初始化。 尽管它们并非全都不好，但n_iter只会尝试其中的极少数。 因此，不能保证找到“最佳”。该函数将返回SSQ最低的那个，但这并不意味着最后这是最有用的结果，除非您只关心SSQ。

如何从 sklearn.cluster.KMeans 中提取和映射集群索引？

[英]How to extract and map cluster indices from sklearn.cluster.KMeans?

tslearn.clustering.TimeSeriesKMeans和sklearn.cluster.KMeans

[英]tslearn.clustering.TimeSeriesKMeans vs sklearn.cluster.KMeans

使用sklearn.cluster.KMeans（python + py2exe）时减少dist目录大小

[英]Reduce dist directory size while using sklearn.cluster.KMeans (python + py2exe)

sklearn.cluster.KMeans 得到“TypeError：__init__() 得到了一个意外的关键字参数‘n_jobs’”

[英]sklearn.cluster.KMeans got "TypeError: __init__() got an unexpected keyword argument 'n_jobs'"

sklearn.cluster.KMeans如何处理缺少质心的init ndarray参数（可用质心小于n_clusters）？

[英]How does sklearn.cluster.KMeans handle an init ndarray parameter with missing centroids (available centroids less than n_clusters)?

如何使用Sklearn Kmeans聚类稀疏数据

[英]How to cluster sparse data using Sklearn Kmeans

sklearn KMeans中的KMeans.cluster_centers_的值

[英]Value at KMeans.cluster_centers_ in sklearn KMeans

Python：一维kmeans集群数据点计数label

[英]Python: 1d kmeans cluster data point count label

在python中使用kmeans sklearn集群数据点

[英]Cluster datapoints using kmeans sklearn in python

定义 k-1 个簇质心——SKlearn KMeans

[英]Define k-1 cluster centroids -- SKlearn KMeans

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何从 sklearn.cluster.KMeans 中提取和映射集群索引？ tslearn.clustering.TimeSeriesKMeans和sklearn.cluster.KMeans 使用sklearn.cluster.KMeans（python + py2exe）时减少dist目录大小 sklearn.cluster.KMeans 得到“TypeError：__init__() 得到了一个意外的关键字参数‘n_jobs’” sklearn.cluster.KMeans如何处理缺少质心的init ndarray参数（可用质心小于n_clusters）？如何使用Sklearn Kmeans聚类稀疏数据 sklearn KMeans中的KMeans.cluster_centers_的值 Python：一维kmeans集群数据点计数label 在python中使用kmeans sklearn集群数据点定义 k-1 个簇质心——SKlearn KMeans

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM