mlab PCA和sklearn PCA之間的區別

Question

我有一組必須使用PCA分解研究的“二維”數據。 第一步，我嘗試使用matplotlib.mlab庫：

import numpy as np
from matplotlib.mlab import PCA

data = np.loadtxt("Data.txt")
result = PCA(data)
#....

然后，我將“ Data.txt”的散布圖與mlab找到的主要成分（存儲在result.Wt中）進行了比較。 結果如下： mlab嘗試

如您所見，結果不是最佳的。 因此，我嘗試使用sklearn.decomposition庫執行相同的操作：

import numpy as np
from sklearn.decomposition import PCA

data = np.loadtxt("Data.txt")
pca = PCA(n_components=2,whiten=True)
pca.fit(data)

這次的結果要好得多： sklearn嘗試

我真的沒想到這兩個庫之間的結果會有如此大的差異。 那么我的問題是：結果有如此大差異的可能原因是什么？

Answer 1

像往常一樣，對於不可重復的問題（ data.txt ）：讓我們猜測吧！

在matplotlib案例中，我的猜測是，您繪制了適合標准數據的PCA軸，但繪制了原始數據（顯然沒有將均值作為正值集中在平均值上）。

所以：