簡體   English   中英

R-二進制Weblog數據的聚類分析

[英]R - cluster analysis on binary weblog data

我有一個類似於以下示例的網絡數據。 它僅具有用戶和二進制值,用於確定該用戶是否喜歡網站中的特定鏈接。 我想對該數據進行一些聚類。 我的主要目標是根據他們的在線行為找到相似的用戶。 有什么好的聚類算法呢? 我嘗試了k均值,它不適用於二進制數據。 我也嘗試過球面k均值skmeans() 我想做一個平方誤差scree圖的總和,但我不知道如何從skmeans獲取SSE。

   User   link1 link2 link3 link4
    abc1     0     1     1     1
    abc2     1     0     1     0
    abc3     0     1     1     1
    abc4     1     0     1     0

如果“單擊鏈接”是不對稱的,則可以嘗試使用jaccard之類的二進制距離度量進行分層聚類:

dat <- read.table(header = TRUE, row.names = 1, text = "User   link1 link2 link3 link4
abc1     0     1     1     1
abc2     1     0     1     0
abc3     0     1     1     1
abc4     1     0     1     0")
d <- dist(dat, method = "binary")
hc <- hclust(d)
plot(hc)

在此處輸入圖片說明

(clusters <- cutree(hc, k = 2))
# abc1 abc2 abc3 abc4 
#    1    2    1    2

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM