簡體   English   中英

聚類與不均勻聚類(k均值)

[英]Clustering with uneven clusters (k-means)

我有兩點觀點。 在應用任何聚類技術之前,我確切地知道每個聚類應該屬於哪些點,但是標記數據的唯一方法是使用聚類技術,例如k-means。 如果我所處的情況似乎令人困惑,而不是專注於此,那么我對k均值這一潛在的特定問題更感興趣。

說我的數據看起來像這樣(xy平面上的簡單2D點):

在此處輸入圖片說明

我想得到兩個點的聚類,但是有一個小問題。 當我運行k-means算法時,我得到的結果是這樣的:

在此處輸入圖片說明

我應該補充一點,這只是一個草圖示例。

我遇到的問題是,在運行算法之前,群集中的點數非常不均勻,最后在算法群集上有明顯的結果,以至於模糊了數據。 當然,這只是個問題,當群集模糊地靠在一起時,我想知道是否有k-means變體或其他群集算法可以很好地處理群集的不同種群大小。 我試圖找到這樣的東西,但是我擔心我使用了錯誤的搜索詞,例如“ k-means群集總數不均”,類似的措辭只會使我獲得有關更快的k-means實現以及與其他統計分析相結合的論文。

只是為了休息一些擔憂。 我已經多次運行k-means,結果始終是上面的草圖,兩個視覺集群之間有一個集群質心。

如果這只是k-means的缺點(我可以看到是這樣),那么我可以接受。

K-Means算法的輸出在很大程度上取決於您選擇的初始質心。 如果選擇彼此靠近的質心,則獲得的簇將偏斜。

此外,如果真實群集的數據點數量不平衡,則通過隨機選擇初始質心很可能會從同一群集中選擇初始質心。

因此,我建議您嘗試選擇距離盡可能遠的初始質心。 這應該是可能的,因為您的點是2D。

您甚至可以探索諸如單鏈接或完整鏈接算法之類的聚集聚類方法。

就是說,這些算法不能保證最佳結果,因此您必須對某些次優性感到滿意。

希望這可以幫助。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM