PCA解釋方差分析

Question

我是PCA的新手。 我的模型有11個X變量。 這些是X變量標簽

x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]

這是我從解釋的方差生成的圖。 x軸為主要成分。

[  3.47567089e-01   1.72406623e-01   1.68663799e-01   8.86739892e-02
   4.06427375e-02   2.75054035e-02   2.26578769e-02   5.72892368e-03
   2.49272688e-03   6.37160140e-05]

我需要知道我是否有很好的功能選擇。 以及我怎么知道哪些功能貢獻最大。

from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_

Answer 1

盡管我不知道數據集，但我建議您在使用PCA之前先縮放特征（沿軸的方差將最大化）。 我認為X_norm在您的代碼中引用了它。

通過使用PCA，我們的目標是降低尺寸。 為此，我們將從包含所有X變量的要素空間開始，最后對該空間進行投影，該投影通常是不同的要素（子）空間。

實際上，當您在要素之間建立關聯時，PCA可以幫助您將該關聯投影到較小的尺寸。

想想看，如果我在桌上拿着滿是點的紙，是否需要第3維來表示該數據集？ 可能不是，因為所有點都在紙上並且可以在2D空間中表示。

當您嘗試從新功能空間中確定要使用多少個主要組件時，您可以查看解釋的方差，它會告訴您每個主要組件有多少信息。

當我查看數據中的主要成分時，我發現〜85％的方差可以歸因於前6個主要成分。

您還可以設置n_components。 例如，如果使用n_components = 2，則轉換后的數據集將具有2個要素。

PCA解釋方差分析

問題描述

1 個解決方案

解決方案1
0 已采納 2017-05-02 15:46:41

PCA解釋方差分析

問題描述

1 個解決方案

解決方案1 0 已采納 2017-05-02 15:46:41

解決方案1
0 已采納 2017-05-02 15:46:41