測量集群內的差異-Kmodes

Question

我正在使用分類數據進行聚類。 我遇到了Kmodes算法，發現它非常適合我的要求。 現在，我想針對所有群集測量群集內的差異。 我正在考慮使用群集來衡量差異，並盡可能減少它。 有什么辦法嗎？ 另外，是否有任何方法可以檢查我的數據集群的效率？ 由於我的數據是分類數據，因此將距離視為度量標准的方法可能無濟於事。

Answer 1

要衡量集群中的差異，您需要提出某種度量標准。 對於分類數據，計算不相似度的可能方法之一可能是以下幾種：

d(i, j) = (p - m) / p

哪里：

p是數據中類別/類別的數量
m是樣本i和j之間的匹配數

例如，如果您的數據具有3個分類特征和樣本，則i和j如下：

    Feature1  Feature2  Feature3
i    x          y          z
j    x          w          z

所以在這里，我們有3個分類特征，所以p=3 ，在這三個特征中，兩個特征對於樣本i和j具有相同的值，所以m=2 。 因此

d(i,j) = (3 - 2) / 3
d(i,j) = 0.33

另一種選擇是將分類變量轉換為單熱編碼特征，然后計算jaccard相似度。

因此，為了衡量集群中的差異，您可以計算集群中每個對象之間的成對差異，然后取其平均值。

基於這些度量，您還可以使用silhoutte分數來評估聚類的質量（但是您需要帶着一粒鹽來接受它，有時該分數可能很好，而聚類可能不是您所期望的）。

測量集群內的差異-Kmodes

問題描述

1 個解決方案

解決方案1
0 2018-09-26 08:58:12

測量集群內的差異-Kmodes

問題描述

1 個解決方案

解決方案1 0 2018-09-26 08:58:12

解決方案1
0 2018-09-26 08:58:12