[英]R - cluster analysis on binary weblog data
我有一個類似於以下示例的網絡數據。 它僅具有用戶和二進制值,用於確定該用戶是否喜歡網站中的特定鏈接。 我想對該數據進行一些聚類。 我的主要目標是根據他們的在線行為找到相似的用戶。 有什么好的聚類算法呢? 我嘗試了k均值,它不適用於二進制數據。 我也嘗試過球面k均值skmeans()
。 我想做一個平方誤差scree圖的總和,但我不知道如何從skmeans獲取SSE。
User link1 link2 link3 link4
abc1 0 1 1 1
abc2 1 0 1 0
abc3 0 1 1 1
abc4 1 0 1 0
如果“單擊鏈接”是不對稱的,則可以嘗試使用jaccard之類的二進制距離度量進行分層聚類:
dat <- read.table(header = TRUE, row.names = 1, text = "User link1 link2 link3 link4
abc1 0 1 1 1
abc2 1 0 1 0
abc3 0 1 1 1
abc4 1 0 1 0")
d <- dist(dat, method = "binary")
hc <- hclust(d)
plot(hc)
(clusters <- cutree(hc, k = 2))
# abc1 abc2 abc3 abc4
# 1 2 1 2
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.