繁体   English   中英

如何用 PCA 分数解释回归系数作为因变量?

[英]How do I interpret regression coefficients with PCA scores as dependent variable?

我正在对四个变量执行 PCA,所有变量都以某种方式测量测试的性能。 现在我想在线性回归中使用第一个主成分(test1_pca)作为因变量,这样我就可以在几个连续(例如年龄)和分类(例如性别)变量上回归新发现的主成分分数,而不必运行四个将四个变量分别作为因变量进行线性回归。 在我看来,将它们组合成一个分数是有意义的,因为它们都衡量性能,这就是我相应地解释主要成分的方式。

但是,我不确定如何解释性能方面的回归系数。 更具体地说,所有四个原始变量都可以解释为:分数越低意味着性能越好。 使用 prcomp() 对变量进行了缩放(并居中),这使得我不知道结果系数表示回归的什么。 通常,您会说“随着 X 的每个单位增加,Y 增加……”,但这如何与 PCA 因变量一起工作?

lm_mod <- lm(test1_pca ~ Group + Age + Ed, data = data)
summary(lm_mod)

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             2.56987    1.17483   2.367 0.004378 ** 
Group2                 -1.23648    0.57839  -3.893 0.000120 ***
Age                    -0.32894    0.03478  -2.938 0.026473 *  
EdNo                   -0.23405    0.34589  -0.537 0.538949    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

以 Ed 作为因子(是/否)、年龄连续和组因子 (Group1/Group2)

带载荷的 PCA:

pca_res <- prcomp(data, scale=TRUE)
test1_pca <- pca_res$x[,1]

                PC1        PC2        PC3           PC4
perf1       0.5578949 -0.3908578 -0.1957844 -6.738934e-01
perf2       0.5578949 -0.3908578 -0.1957844  6.738934e-01
perf3       0.4578934  0.2455783  0.7957830 -3.683985e-17
perf4       0.3689048  0.8346758 -0.4783748  0.000000e+00

您不能在分类数据中使用经典 PCA。 相反,您可以使用特定方法对各种类型的变量进行 PCA。 我建议您检查 R 中存在的 FactoMineR 包。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM