繁体 English 中英

R中具有不同包的均值漂移聚类中的不同带宽规范

[英]Different bandwidth specification in mean-shift clustering with different packages in R

原文 2019-01-07 07:40:58 1 1 r/ cluster-analysis/ mean-shift

我想在R中执行均值漂移聚类，发现至少有两个具有此功能的软件包： MeanShift和meanShiftR 。 作为显示在这里后者是更快，因为我尝试了第一个，花了很长的时间来进行聚类，我热衷于选择meanShiftR 。 但是meanShiftR::meanShift函数具有相当不常见的带宽指定方式，请参见文档的一部分：

queryData要通过均值平移算法分类的点的矩阵或向量。 值必须是有限且不丢失的。

带宽一个矢量，其长度等于queryData矩阵中的列数，或者当queryData是矢量时的长度为1。 该值将用于内核密度估计中，以进行最陡的上升分类。 每个维度的默认值是一个。

我不是均值漂移聚类专家，但是我在文献中发现的唯一带宽定义是带宽是标量或正定的对称矩阵，而不是矢量。 那么，代表带宽的技术诀窍和带宽值在每个维度上都必须相同吗？ 也许它会有所不同？

另一个问题是，即使在meanShiftR包中设置了与MeanShift :: msClustering相同的带宽值，但只是复制以匹配列数，我却获得了完全不同的结果，尤其是簇数更多。 而且，这些模式非常相似，不能代表数据集。 这让我想知道这个程序包是否正确。 有人甚至使用过meanShiftR吗？ 如果是这样，也许您可以举任何例子，因为文档对我来说还不够清楚？