簡體   English   中英

PCA解釋方差分析

[英]PCA Explained Variance Analysis

我是PCA的新手。 我的模型有11個X變量。 這些是X變量標簽

x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]

這是我從解釋的方差生成的圖。 x軸為主要成分。 在此處輸入圖片說明

[  3.47567089e-01   1.72406623e-01   1.68663799e-01   8.86739892e-02
   4.06427375e-02   2.75054035e-02   2.26578769e-02   5.72892368e-03
   2.49272688e-03   6.37160140e-05]

我需要知道我是否有很好的功能選擇。 以及我怎么知道哪些功能貢獻最大。

from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_

盡管我不知道數據集,但我建議您在使用PCA之前先縮放特征(沿軸的方差將最大化)。 我認為X_norm在您的代碼中引用了它。

通過使用PCA,我們的目標是降低尺寸。 為此,我們將從包含所有X變量的要素空間開始,最后對該空間進行投影,該投影通常是不同的要素(子)空間。

實際上,當您在要素之間建立關聯時,PCA可以幫助您將該關聯投影到較小的尺寸。

想想看,如果我在桌上拿着滿是點的紙,是否需要第3維來表示該數據集? 可能不是,因為所有點都在紙上並且可以在2D空間中表示。

當您嘗試從新功能空間中確定要使用多少個主要組件時,您可以查看解釋的方差,它會告訴您每個主要組件有多少信息。

當我查看數據中的主要成分時,我發現〜85%的方差可以歸因於前6個主要成分。

您還可以設置n_components。 例如,如果使用n_components = 2,則轉換后的數據集將具有2個要素。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM