簡體   English   中英

僅包含分類變量的大型數據集的聚類分析

[英]Cluster analysis of large dataset containing only categorical variables

我的任務是根據他們一起購買的產品來集中我們的客戶。 我的數據包含與每個客戶相關的500,000行和8,000個變量(產品ID)。 每個變量都是一個熱編碼向量,顯示客戶是否購買了該產品。

我試圖用MCA(多重對應算法)減少數據的維度,然后使用k-means和dbscan進行聚類分析,但我的結果並不令人滿意。

對於具有高維度的大型數據集及其python實現的聚類分析,有哪些適當的算法?

您應該使用的是頻繁的模式挖掘 ,而不是聚類。

一熱編碼變量通常弊大於利。 使用適當的聚類算法(例如,分層,DBSCAN,但不是 k均值),對這樣的數據使用精心選擇的距離(可以像某些數據集上的漢明或Jaccard一樣簡單)。 或者,嘗試k模式。 但最有可能的是,頻繁項目集是對數據進行更有意義的分析。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM