[英]PCA Explained Variance Analysis
我是PCA的新手。 我的模型有11个X变量。 这些是X变量标签
x = ['Day','Month', 'Year', 'Rolling Average','Holiday Effect', 'Day of the Week', 'Week of the Year', 'Weekend Effect', 'Last Day of the Month', "Quarter" ]
[ 3.47567089e-01 1.72406623e-01 1.68663799e-01 8.86739892e-02
4.06427375e-02 2.75054035e-02 2.26578769e-02 5.72892368e-03
2.49272688e-03 6.37160140e-05]
我需要知道我是否有很好的功能选择。 以及我怎么知道哪些功能贡献最大。
from sklearn import decomposition
pca = decomposition.PCA()
pca.fit(X_norm)
scores = pca.explained_variance_
尽管我不知道数据集,但我建议您在使用PCA之前先缩放特征(沿轴的方差将最大化)。 我认为X_norm在您的代码中引用了它。
通过使用PCA,我们的目标是降低尺寸。 为此,我们将从包含所有X变量的要素空间开始,最后对该空间进行投影,该投影通常是不同的要素(子)空间。
实际上,当您在要素之间建立关联时,PCA可以帮助您将该关联投影到较小的尺寸。
想想看,如果我在桌上拿着满是点的纸,是否需要第3维来表示该数据集? 可能不是,因为所有点都在纸上并且可以在2D空间中表示。
当您尝试从新功能空间中确定要使用多少个主要组件时,您可以查看解释的方差,它会告诉您每个主要组件有多少信息。
当我查看数据中的主要成分时,我发现〜85%的方差可以归因于前6个主要成分。
您还可以设置n_components。 例如,如果使用n_components = 2,则转换后的数据集将具有2个要素。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.