繁体   English   中英

PCA解释方差分析

[英]PCA Explained Variance Analysis

我是PCA的新手。 我的模型有11个X变量。 这些是X变量标签

x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]

这是我从解释的方差生成的图。 x轴为主要成分。 在此处输入图片说明

[  3.47567089e-01   1.72406623e-01   1.68663799e-01   8.86739892e-02
   4.06427375e-02   2.75054035e-02   2.26578769e-02   5.72892368e-03
   2.49272688e-03   6.37160140e-05]

我需要知道我是否有很好的功能选择。 以及我怎么知道哪些功能贡献最大。

from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_

尽管我不知道数据集,但我建议您在使用PCA之前先缩放特征(沿轴的方差将最大化)。 我认为X_norm在您的代码中引用了它。

通过使用PCA,我们的目标是降低尺寸。 为此,我们将从包含所有X变量的要素空间开始,最后对该空间进行投影,该投影通常是不同的要素(子)空间。

实际上,当您在要素之间建立关联时,PCA可以帮助您将该关联投影到较小的尺寸。

想想看,如果我在桌上拿着满是点的纸,是否需要第3维来表示该数据集? 可能不是,因为所有点都在纸上并且可以在2D空间中表示。

当您尝试从新功能空间中确定要使用多少个主要组件时,您可以查看解释的方差,它会告诉您每个主要组件有多少信息。

当我查看数据中的主要成分时,我发现〜85%的方差可以归因于前6个主要成分。

您还可以设置n_components。 例如,如果使用n_components = 2,则转换后的数据集将具有2个要素。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM