什么是python中的簇，相似度和距離？

Question

我正在觀看MIT OpenCourseWare 6.0002群集視頻，並且我不理解該類中的某些代碼。

這是什么。 .Cluster ？

for e in initialCentroids:
        clusters.append(cluster.Cluster([e]))

什么是.distance ？

  for e in examples:
            smallestDistance = e.distance(clusters[0].getCentroid())

什么是.dissimilarity ？

 minDissimilarity = cluster.dissimilarity(best)

通過代碼，我可以了解他們在做什么，但是我想對此做更多詳細的介紹。 相關文件將不勝感激！

Answer 1

這些術語主要用於描述數據及其之間的關系。 讓我們從集群開始。

Cluster是在某種意義上可能具有相似特征的觀測數據點集。 聚類主要是無監督學習的方法。 輕松想像-地圖是一組群集，按國籍將人分組，但是像在ML中一樣，人們可能會分散到其他國家/地區-在某些年級之前都是正常的。

如果我們將distance作為clusters之間的距離，則該術語表示clusters的質心距聚類2的質心有多遠。 通過測量點到所有群集的質心的距離，術語也可以指給定的點-該點將由具有最小距離的群集擁有。

另外，相dissimilarity描述器的值與距離幾乎相同，它說明了數據點與原始質心的相似性。 這意味着一旦距離很高-我認為相異性也很高-對此不確定。

希望能幫助到你。