[英]How do I do statisticly analyze groups with different numbers of individuals and nested treatmens?
我目前正在研究我的 MSC 论文,但我担心我不具备分析这些数据的统计知识水平。 在我的实验中,有 3 种植物,分别有 31,40 和 82 个个体。 他们每个人都有自己的体重和身高,所以我也需要实施。 总共有 6 个处理,每个处理包含一个侵蚀级别和一个流速(这是设置中水流的速度 stream)。 对于每个侵蚀级别,我使用了 2 种不同的流速。 所以我假设流速被嵌套/阻塞到侵蚀中。 对于每次处理,测量植物茎的角度与站立垂直度的比较。 每个单独的茎都以完全相同的顺序经过每次处理。 无论如何我可以纳入统计分析,最好是在 R 中。我试图对我的数据的外观进行示意图概述。
你会是我的 MSC 论文的救星:)
提前致谢,祝您有美好的一天。
我已经尝试将处理放入一个向量中,但由于控制组的长度都不同,所以它不起作用。
对于erosion
、 flowspeed
和species
的多个分类预测变量,这类似于所谓的“重复测量方差分析”。 这是一个线性 model,其中您考虑了对同一个人的重复测量。 问题在于,经典的重复测量方差分析假设每个处理/物种组中的观察值数量相等,而您没有。
处理不同数量观测值的一种方法是线性混合 model。您使用erosion
、 flowspeed
和species
作为固定效应预测变量, angle
作为结果,并将单个植物视为提供随机效应。
您为每个观察设置 1 行数据,并附注angle
、 erosion
、 flowspeed
、 species
和指示单个植物的ID
。 最好只有 6 种erosion
与flowspeed
的组合将它们编码为分类预测变量,而不是数字。 如果要在分析中包含这些变量,请在每行中也包含height
和weight
。 使用一组从 1 到 153 的ID
值,而不是在每个物种中从 1 重新编号。 否则软件会认为ID=1
的植物都是同一个体,都是3个物种的一员!
使用lme4
中的 lme4 package,您可以从以下内容开始:
myModel <- lmer(angle ~ erosion*flowspeed*species + (1|ID), data = myData)
这允许根据erosion
、 flowspeed
和species
的组合与angle
进行不同的关联。 它通过估计 153 个个体 (ID) 的不同截距( erosion
参考水平和flowspeed
和species
的估计angle
)来考虑重复测量。 您无需担心“嵌套”等术语。 该软件将正确解释ID
值在处理/物种组合中的分布。
这将返回大量的固定效应回归系数:根据我的快速计数,2 个用于erosion
,1 个用于flowspeed
,2 个用于species
,2 个用于erosion:flowspeed
相互作用,4 个用于erosion:species
相互作用,2 个用于flowspeed:species
相互作用, 和 4 用于erosion:flowspeed:species
相互作用。 不要花太多时间试图单独计算出这些系数。 他们描述 model 的方式使后续使用其他软件的分析更加清晰。 您还将获得ID
特定截距值之间方差的估计值。
我建议在 R car
package中使用Anova()
function 来评估erosion
和flowspeed
和species
及其交互集与angle
结果的整体关联。 function 提供的“II 型”默认分析可以正确处理不同数量的观察结果,而 R 中的标准 anova( anova()
或aov()
函数则不能。
然后,您可以使用emmeans
package中的建模后软件来评估和比较固定效应预测变量组合中的预测angle
值。
您必须检查是否合理满足线性 model 的假设。 分类预测变量的主要问题是残差范围(观测角度值和预测angle
值之间的差异)在预测值范围内是否相似。 如果不是这种情况,您可能必须考虑对angle
值进行一些预转换。 残差的合理正态分布是一个优势,但当您有大量观测值时就不是那么重要了。
上面没有在 model 中明确包含height
和weight
。它在ID
值和相应的随机截距中隐含地包含它们。 您可以将它们作为显式预测变量添加到 model 中。如果这样做,请仔细考虑将它们包含在内的形式。 如果您只是将它们作为线性项包括在内,那么您就隐含地假设angle
与height
和weight
中的每一个线性相关且相加地与erosion
和flowspeed
和species
相关的所有其他影响之上。 这合理吗?
最后,您在讨论结果时需要解决研究设计的一个局限性。 由于所有植物都以相同的顺序接受相同的处理,因此您不能排除结果存在时间或曝光依赖性的可能性。 也就是说,后期处理组合的结果可能不仅取决于erosion
、 flowspeed
和species
,还取决于经过的时间或之前经历的处理。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.