[英]PCA Explained Variance Analysis
我是PCA的新手。 我的模型有11個X變量。 這些是X變量標簽
x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]
[ 3.47567089e-01 1.72406623e-01 1.68663799e-01 8.86739892e-02
4.06427375e-02 2.75054035e-02 2.26578769e-02 5.72892368e-03
2.49272688e-03 6.37160140e-05]
我需要知道我是否有很好的功能選擇。 以及我怎么知道哪些功能貢獻最大。
from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_
盡管我不知道數據集,但我建議您在使用PCA之前先縮放特征(沿軸的方差將最大化)。 我認為X_norm在您的代碼中引用了它。
通過使用PCA,我們的目標是降低尺寸。 為此,我們將從包含所有X變量的要素空間開始,最后對該空間進行投影,該投影通常是不同的要素(子)空間。
實際上,當您在要素之間建立關聯時,PCA可以幫助您將該關聯投影到較小的尺寸。
想想看,如果我在桌上拿着滿是點的紙,是否需要第3維來表示該數據集? 可能不是,因為所有點都在紙上並且可以在2D空間中表示。
當您嘗試從新功能空間中確定要使用多少個主要組件時,您可以查看解釋的方差,它會告訴您每個主要組件有多少信息。
當我查看數據中的主要成分時,我發現〜85%的方差可以歸因於前6個主要成分。
您還可以設置n_components。 例如,如果使用n_components = 2,則轉換后的數據集將具有2個要素。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.