R-二進制Weblog數據的聚類分析

Question

我有一個類似於以下示例的網絡數據。 它僅具有用戶和二進制值，用於確定該用戶是否喜歡網站中的特定鏈接。 我想對該數據進行一些聚類。 我的主要目標是根據他們的在線行為找到相似的用戶。 有什么好的聚類算法呢？ 我嘗試了k均值，它不適用於二進制數據。 我也嘗試過球面k均值skmeans() 。 我想做一個平方誤差scree圖的總和，但我不知道如何從skmeans獲取SSE。

   User   link1 link2 link3 link4
    abc1     0     1     1     1
    abc2     1     0     1     0
    abc3     0     1     1     1
    abc4     1     0     1     0

Answer 1

如果“單擊鏈接”是不對稱的，則可以嘗試使用jaccard之類的二進制距離度量進行分層聚類：

dat <- read.table(header = TRUE, row.names = 1, text = "User   link1 link2 link3 link4
abc1     0     1     1     1
abc2     1     0     1     0
abc3     0     1     1     1
abc4     1     0     1     0")
d <- dist(dat, method = "binary")
hc <- hclust(d)
plot(hc)

在此處輸入圖片說明

(clusters <- cutree(hc, k = 2))
# abc1 abc2 abc3 abc4 
#    1    2    1    2

R-二進制Weblog數據的聚類分析

問題描述

1 個解決方案

解決方案1
4 已采納 2015-05-15 06:03:47

R-二進制Weblog數據的聚類分析

問題描述

1 個解決方案

解決方案1 4 已采納 2015-05-15 06:03:47

解決方案1
4 已采納 2015-05-15 06:03:47