如何在 Python 中使用兩個單獨的尺度將兩個數據集聚類為一個熱圖？

Question

我正在嘗試使用Seaborn 中的集群熱圖功能對兩個數據集執行聚類分析。

問題是這兩個數據集來自兩個不同的過程，因此它們包含分布不同的值（我的意思是，第一個數據集的值范圍從 0 到 1，但第二個數據集的值從 1000 到 5000）。

我的問題是：

如何對具有不同值范圍的兩個數據集進行聚類？ 有沒有辦法將數據集的行聚集成單個熱圖，並且每個數據集可能有兩個尺度？

這是我迄今為止嘗試過的，但收效甚微：

#First, I have combined the two datasets into one dataframe object:
dataset = pd.concat([dataset_1, dataset_2], axis=0)

#Then, passed the dataframe into Seaborn's `.clustermap()` function:
sns.clustermap(data=dataset, 
    col_cluster=False)

輸出：你可以注意到dataset_1的特征都被屏蔽了，因為數據集之間的規模差異（ dataset_1和dataset_2如下圖）

知道如何解決這個問題嗎？

Answer 1

您可以在創建 clustermap 之前使用 sklearn 的預處理庫，特別是縮放器。

文檔在這里： http : //scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html#sklearn.preprocessing.scale

如何在 Python 中使用兩個單獨的尺度將兩個數據集聚類為一個熱圖？

問題描述

1 個解決方案

解決方案1
-1 已采納 2018-02-06 16:49:33

如何在 Python 中使用兩個單獨的尺度將兩個數據集聚類為一個熱圖？

問題描述

1 個解決方案

解決方案1 -1 已采納 2018-02-06 16:49:33

解決方案1
-1 已采納 2018-02-06 16:49:33