[英]R: Explorative linear regression, setting up a simple model with multiple depentent and independent variables
我对几个案例进行了研究,所有案例都包含来自多个序数因子变量 (基因型)和多个数字变量 (各种血液样本(浓度))的数据。 我正在尝试建立一个探索性模型,以测试任何数值变量 (取决于模型) 和任何序数因子变量 (独立于模型) 之间的线性 。
数据集结构示例(独立变量): genotypes
case_id genotype_1 genotype_2 ... genotype_n
1 0 0 1
2 1 0 2
... ... ... ...
n 2 1 0
和因变量(具有匹配的案例ID:s): samples
case_id sample_1 sample_2 ... sample_n
1 0.3 0.12 6.12
2 0.25 0.15 5.66
... ... ... ...
n 0.44 0.26 6.62
在论坛中找到一个无法解决问题的类似示例:
model <- apply(samples,2,function(xl)lm(xl ~.,data= genotypes))
我无法弄清楚如何进行简单的线性回归 ,该线性回归要经过给定的因变量和自变量的任意组合 。 如果使用应用族,我猜变化(x)项应该是模型中的因变量,因为每个因变量都应测试同一组自变量(分别)的线性。
从真实数据中提取:
> genotypes
case_id genotype_1 genotype_2 genotype_3 genotype_4 genotype_5
1 1 2 2 1 1 0
2 2 NaN 1 NaN 0 0
3 3 1 0 0 0 NaN
4 4 2 2 1 1 0
5 5 0 0 0 1 NaN
6 6 2 2 1 0 0
7 9 0 0 0 0 1
8 10 0 0 0 NaN 0
9 13 0 0 0 NaN 0
10 15 NaN 1 NaN 0 1
> samples
case_id sample_1 sample_2 sample_3 sample_4 sample_5
1 1 0.16092019 0.08814160 -0.087733372 0.1966070 0.09085343
2 2 -0.21089678 -0.13289427 0.056583528 -0.9077926 -0.27928376
3 3 0.05102400 0.07724300 -0.212567535 0.2485348 0.52406368
4 4 0.04823619 0.12697286 0.010063683 0.2265085 -0.20257192
5 5 -0.04841221 -0.10780329 0.005759269 -0.4092782 0.06212171
6 6 -0.08926734 -0.19925538 0.202887833 -0.1536070 -0.05889369
7 9 -0.03652588 -0.18442457 0.204140717 0.1176950 -0.65290133
8 10 0.07038933 0.05797007 0.082702589 0.2927817 0.01149564
9 13 -0.14082554 0.26783539 -0.316528107 -0.7226103 -0.16165326
10 15 -0.16650266 -0.35291579 0.010063683 0.5210507 0.04404433
简介:由于我有很多数据,因此我想创建一个简单的模型来帮助我选择需要进一步研究的可能的相关性。 有什么想法吗?
注意:我不是要拟合多元线性回归模型!
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.