繁体   English   中英

R:探索性线性回归,建立了一个包含多个独立变量的简单模型

[英]R: Explorative linear regression, setting up a simple model with multiple depentent and independent variables

我对几个案例进行了研究,所有案例都包含来自多个序数因子变量 (基因型)和多个数字变量 (各种血液样本(浓度))的数据。 我正在尝试建立一个探索性模型,以测试任何数值变量 (取决于模型) 和任何序数因子变量 (独立于模型) 之间的线性

数据集结构示例(独立变量): genotypes

case_id   genotype_1   genotype_2   ... genotype_n
1         0            0                1
2         1            0                2
...       ...          ...              ...
n         2            1                0

和因变量(具有匹配的案例ID:s): samples

case_id   sample_1   sample_2   ... sample_n
1         0.3        0.12           6.12
2         0.25       0.15           5.66
...       ...        ...            ...
n         0.44       0.26           6.62

在论坛中找到一个无法解决问题的类似示例:

model <- apply(samples,2,function(xl)lm(xl ~.,data= genotypes))

无法弄清楚如何进行简单的线性回归 ,该线性回归要经过给定的因变量和自变量的任意组合 如果使用应用族,我猜变化(x)项应该是模型中的因变量,因为每个因变量都应测试同一组自变量(分别)的线性。

从真实数据中提取:

> genotypes

      case_id genotype_1 genotype_2 genotype_3 genotype_4 genotype_5
 1       1          2          2          1          1          0
 2       2        NaN          1        NaN          0          0
 3       3          1          0          0          0        NaN
 4       4          2          2          1          1          0
 5       5          0          0          0          1        NaN
 6       6          2          2          1          0          0
 7       9          0          0          0          0          1
 8      10          0          0          0        NaN          0
 9      13          0          0          0        NaN          0
10      15        NaN          1        NaN          0          1

> samples

   case_id    sample_1    sample_2     sample_3   sample_4    sample_5
 1       1  0.16092019  0.08814160 -0.087733372  0.1966070  0.09085343
 2       2 -0.21089678 -0.13289427  0.056583528 -0.9077926 -0.27928376
 3       3  0.05102400  0.07724300 -0.212567535  0.2485348  0.52406368
 4       4  0.04823619  0.12697286  0.010063683  0.2265085 -0.20257192
 5       5 -0.04841221 -0.10780329  0.005759269 -0.4092782  0.06212171
 6       6 -0.08926734 -0.19925538  0.202887833 -0.1536070 -0.05889369
 7       9 -0.03652588 -0.18442457  0.204140717  0.1176950 -0.65290133
 8      10  0.07038933  0.05797007  0.082702589  0.2927817  0.01149564
 9      13 -0.14082554  0.26783539 -0.316528107 -0.7226103 -0.16165326
10      15 -0.16650266 -0.35291579  0.010063683  0.5210507  0.04404433

简介:由于我有很多数据,因此我想创建一个简单的模型来帮助我选择需要进一步研究的可能的相关性。 有什么想法吗?

注意:我不是要拟合多元线性回归模型!

我觉得必须对线性度进行统计检验,但我不记得了。 外观检查通常是我的工作方式。 测试大量变量线性的快速而肮脏的方法是测试每对因变量/独立变量的corr()。 小倍数将是一个方便的方法。

或者,对于每个因序变量,运行corrplot与每个自变量(数字),自变量的日志版本以及自变量的指数版本。 如果已记录或指数版本的CORR结果具有比常规版本更高的p值,则似乎您可能存在一些线性问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM