簡體 English 中英

聚類與不均勻聚類（k均值）

[英]Clustering with uneven clusters (k-means)

原文 2016-07-28 16:36:51 5 1 algorithm/ machine-learning/ statistics/ k-means

我有兩點觀點。 在應用任何聚類技術之前，我確切地知道每個聚類應該屬於哪些點，但是標記數據的唯一方法是使用聚類技術，例如k-means。 如果我所處的情況似乎令人困惑，而不是專注於此，那么我對k均值這一潛在的特定問題更感興趣。

說我的數據看起來像這樣（xy平面上的簡單2D點）：

我想得到兩個點的聚類，但是有一個小問題。 當我運行k-means算法時，我得到的結果是這樣的：

我應該補充一點，這只是一個草圖示例。

我遇到的問題是，在運行算法之前，群集中的點數非常不均勻，最后在算法群集上有明顯的結果，以至於模糊了數據。 當然，這只是個問題，當群集模糊地靠在一起時，我想知道是否有k-means變體或其他群集算法可以很好地處理群集的不同種群大小。 我試圖找到這樣的東西，但是我擔心我使用了錯誤的搜索詞，例如“ k-means群集總數不均”，類似的措辭只會使我獲得有關更快的k-means實現以及與其他統計分析相結合的論文。

只是為了休息一些擔憂。 我已經多次運行k-means，結果始終是上面的草圖，兩個視覺集群之間有一個集群質心。

如果這只是k-means的缺點（我可以看到是這樣），那么我可以接受。

1 個解決方案

K-Means算法的輸出在很大程度上取決於您選擇的初始質心。 如果選擇彼此靠近的質心，則獲得的簇將偏斜。

此外，如果真實群集的數據點數量不平衡，則通過隨機選擇初始質心很可能會從同一群集中選擇初始質心。

因此，我建議您嘗試選擇距離盡可能遠的初始質心。 這應該是可能的，因為您的點是2D。

您甚至可以探索諸如單鏈接或完整鏈接算法之類的聚集聚類方法。

就是說，這些算法不能保證最佳結果，因此您必須對某些次優性感到滿意。

希望這可以幫助。

K-Means用於對角線聚類

[英]K-Means for diagonal clusters

文本聚類的k均值

[英]k-means for text clustering

容量k-means聚類？

[英]Capacitated k-means clustering?

改進k均值聚類

[英]Improving k-means clustering

K均值聚類划分

[英]K-Means Clustering Paritioning

根據連接距離，使用K-means plus plus聚類算法創建聚類

[英]Creating clusters with K-means plus plus clustering algorithm based on connected distance

需要比較 K-means 聚類相似度

[英]Need to compare the K-means clusters similarity

在K-Means聚類中使用詞干

[英]Using stemming in K-Means clustering

（C ++）K-Means聚類問題

[英](C++) K-Means Clustering trouble

K-means聚類解決方案的唯一性

[英]K-means clustering uniqueness of solution

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 K-Means用於對角線聚類文本聚類的k均值容量k-means聚類？改進k均值聚類 K均值聚類划分根據連接距離，使用K-means plus plus聚類算法創建聚類需要比較 K-means 聚類相似度在K-Means聚類中使用詞干（C ++）K-Means聚類問題 K-means聚類解決方案的唯一性

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM