繁体   English   中英

确定pca分析中n_components变量的值

[英]Determine the value of n_components variable in pca analysis

祝你今天愉快。 请帮我。 我有一个规范化的文件。 该文件由21个数字列组成。

我将对以下文件进行pca analysis

pca = decomposition.PCA(n_components=21)
pca_output = pca.fit_transform(pca_matrix)
pca_inverse = pca.inverse_transform(pca_output)

据我了解,我分配给n_components变量的值等于列数。 但是我不明白的是如何确定n_components变量。

它是一个超参数,找到最佳值取决于要对数据执行的操作。 让我描述3种可能的用途:

  • 可视化 :2或3可能是最明智的选择:)
  • 压缩 :这里的目标是在不丢失太多信息的情况下简单地减少功能部件的数量。 您可以容纳所有组件( n_components=None )。 然后检查属性explained_variance_ratio_并确定您愿意删除多少个。 或者,您可以放置n_components='mle'并让数据为您决定。
  • 预处理 :这里维是某些管线的第一步(在回归/分类之前)。 与压缩相反,您想将转换后的特征用作监督学习算法的输入。 我建议通过GridSearchCV在PCA的n_components和预测模型的超参数上找到最佳的n_components。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM