簡體 English 中英

R中具有不同包的均值漂移聚類中的不同帶寬規范

[英]Different bandwidth specification in mean-shift clustering with different packages in R

原文 2019-01-07 07:40:58 4 1 r/ cluster-analysis/ mean-shift

我想在R中執行均值漂移聚類，發現至少有兩個具有此功能的軟件包： MeanShift和meanShiftR 。 作為顯示在這里后者是更快，因為我嘗試了第一個，花了很長的時間來進行聚類，我熱衷於選擇meanShiftR 。 但是meanShiftR::meanShift函數具有相當不常見的帶寬指定方式，請參見文檔的一部分：

queryData要通過均值平移算法分類的點的矩陣或向量。 值必須是有限且不丟失的。

帶寬一個矢量，其長度等於queryData矩陣中的列數，或者當queryData是矢量時的長度為1。 該值將用於內核密度估計中，以進行最陡的上升分類。 每個維度的默認值是一個。

我不是均值漂移聚類專家，但是我在文獻中發現的唯一帶寬定義是帶寬是標量或正定的對稱矩陣，而不是矢量。 那么，代表帶寬的技術訣竅和帶寬值在每個維度上都必須相同嗎？ 也許它會有所不同？

另一個問題是，即使在meanShiftR包中設置了與MeanShift :: msClustering相同的帶寬值，但只是復制以匹配列數，我卻獲得了完全不同的結果，尤其是簇數更多。 而且，這些模式非常相似，不能代表數據集。 這讓我想知道這個程序包是否正確。 有人甚至使用過meanShiftR嗎？ 如果是這樣，也許您可以舉任何例子，因為文檔對我來說還不夠清楚？