簡體 English 中英

僅包含分類變量的大型數據集的聚類分析

[英]Cluster analysis of large dataset containing only categorical variables

原文 2019-05-30 15:14:58 8 1 python/ cluster-analysis/ large-data

我的任務是根據他們一起購買的產品來集中我們的客戶。 我的數據包含與每個客戶相關的500,000行和8,000個變量（產品ID）。 每個變量都是一個熱編碼向量，顯示客戶是否購買了該產品。

我試圖用MCA（多重對應算法）減少數據的維度，然后使用k-means和dbscan進行聚類分析，但我的結果並不令人滿意。

對於具有高維度的大型數據集及其python實現的聚類分析，有哪些適當的算法？

1 個解決方案

您應該使用的是頻繁的模式挖掘 ，而不是聚類。

一熱編碼變量通常弊大於利。 使用適當的聚類算法（例如，分層，DBSCAN，但不是 k均值），對這樣的數據使用精心選擇的距離（可以像某些數據集上的漢明或Jaccard一樣簡單）。 或者，嘗試k模式。 但最有可能的是，頻繁項目集是對數據進行更有意義的分析。

使用大型分類變量預處理數據集

[英]Preprocessing Dataset with Large Categorical Variables

確定包含分類變量和數值變量的數據集的聚類算法

[英]Deciding to the clustering algorithm for the dataset containing both categorical and numerical variables

如何僅貶低包含分類變量的 Pandas 數據框中的數字列？

[英]How to demean only numeric columns in a Pandas dataframe containing categorical variables?

分析dataframe中分類變量的變化

[英]Analysis of changes of categorical variables in the dataframe

具有字符串/分類特征（變量）的線性回歸分析？

[英]Linear regression analysis with string/categorical features (variables)?

Python：Chi Squared用於大型數據集中的分類值

[英]Python: Chi Squared for categorical values in large dataset

數據集中分類特征的大量類別

[英]Large number of categories for categorical features in the dataset

數據集中分類變量之間的相關性

[英]Correlation between Categorical variables within a dataset

大型交易數據集的python市場籃子分析

[英]market basket analysis in python for large transaction dataset

減少大類別變量的級別數

[英]Reduce number of levels for large categorical variables

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用大型分類變量預處理數據集確定包含分類變量和數值變量的數據集的聚類算法如何僅貶低包含分類變量的 Pandas 數據框中的數字列？分析dataframe中分類變量的變化具有字符串/分類特征（變量）的線性回歸分析？ Python：Chi Squared用於大型數據集中的分類值數據集中分類特征的大量類別數據集中分類變量之間的相關性大型交易數據集的python市場籃子分析減少大類別變量的級別數

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM