![](/img/trans.png)
[英]How do i Interpret the coefficients of glm with binomial error distribution?
[英]How do I interpret regression coefficients with PCA scores as dependent variable?
我正在对四个变量执行 PCA,所有变量都以某种方式测量测试的性能。 现在我想在线性回归中使用第一个主成分(test1_pca)作为因变量,这样我就可以在几个连续(例如年龄)和分类(例如性别)变量上回归新发现的主成分分数,而不必运行四个将四个变量分别作为因变量进行线性回归。 在我看来,将它们组合成一个分数是有意义的,因为它们都衡量性能,这就是我相应地解释主要成分的方式。
但是,我不确定如何解释性能方面的回归系数。 更具体地说,所有四个原始变量都可以解释为:分数越低意味着性能越好。 使用 prcomp() 对变量进行了缩放(并居中),这使得我不知道结果系数表示回归的什么。 通常,您会说“随着 X 的每个单位增加,Y 增加……”,但这如何与 PCA 因变量一起工作?
lm_mod <- lm(test1_pca ~ Group + Age + Ed, data = data)
summary(lm_mod)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.56987 1.17483 2.367 0.004378 **
Group2 -1.23648 0.57839 -3.893 0.000120 ***
Age -0.32894 0.03478 -2.938 0.026473 *
EdNo -0.23405 0.34589 -0.537 0.538949
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
以 Ed 作为因子(是/否)、年龄连续和组因子 (Group1/Group2)
带载荷的 PCA:
pca_res <- prcomp(data, scale=TRUE)
test1_pca <- pca_res$x[,1]
PC1 PC2 PC3 PC4
perf1 0.5578949 -0.3908578 -0.1957844 -6.738934e-01
perf2 0.5578949 -0.3908578 -0.1957844 6.738934e-01
perf3 0.4578934 0.2455783 0.7957830 -3.683985e-17
perf4 0.3689048 0.8346758 -0.4783748 0.000000e+00
您不能在分类数据中使用经典 PCA。 相反,您可以使用特定方法对各种类型的变量进行 PCA。 我建议您检查 R 中存在的 FactoMineR 包。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.