K-Means ++算法-解釋下一個集群中心的選擇

Question

就像圖片一樣，為什么不只選擇點2作為聚類的第二個點呢？而是去生成一個隨機數bettwen [0,1]？

def initialize(X, K):#kmean++
m,n=shape(X)
C = mat(zeros((K,n)))
random_number=random.randint(0,m)
C[0,:]=X[random_number]
for k in range(1, K):
    D2 = scipy.array([min([scipy.inner(c-x,c-x) for c in C]) for x in X])
    probs = D2/D2.sum()
    cumprobs = probs.cumsum()
    r = scipy.rand()
    for j,p in enumerate(cumprobs):
        if r < p:
            i = j
            break
    C[k,:]=X[i]
return C

為什么生成r與p（圖片中的累計概率為Sum）進行比較？

Answer 1

因為對於行為分析，更容易理解在處理概率驅動的選擇時發生的情況。

憑直覺，您不想選擇最遠的點，因為它可能是異常值。
您想選擇一個點，該點可能是很遠的質量的一部分。
為此，選擇PDF的效果很好。

K-Means ++算法-解釋下一個集群中心的選擇

問題描述

1 個解決方案

解決方案1
1 2017-07-22 10:23:02

K-Means ++算法-解釋下一個集群中心的選擇

問題描述

1 個解決方案

解決方案1 1 2017-07-22 10:23:02

解決方案1
1 2017-07-22 10:23:02