如何确定何时以及如何在lme4的线性混合效应模型中包括协变量

Question

我正在R中运行线性混合效果模型，但不确定如何在模型中包含不感兴趣的协变量，甚至不确定如何确定是否应该这样做。

我有两个主题内变量，我们将它们分别称为A和B，每个变量具有两个级别，每个参与者有很多观察结果。 我对他们的互动在4个小组中如何变化感兴趣。 我的结果是反应时间。 在最简单的层次上，我有以下模型：

RT ~ 1 + A*B*Groups + (1+A | Subject ID)

我想将“性别”添加为没有兴趣的协变量。 我没有理论上的理由认为它会影响任何事情，但是它在各个群体之间确实是不平衡的，因此我想将其包括在内。 我的问题的第一部分是：做到这一点的最佳方法是什么？

是这个模型吗？

RT ~ 1 + A*B*Groups + Gender + (1+A | Subject ID)

或这个：

RT ~ 1 + A*B*Groups*Gender + (1+A | Subject ID)

？ 还是其他方式？ 我担心第二个模型是因为它在某种程度上不合理地夸大了模型中的项数。 另外，我担心过度拟合。

问题的第二部分：选择最佳模型时，应何时添加协变量以查看是否有任何区别？ 让我解释一下我的意思。

假设我从上面提到的最简单的模型开始，但是没有A的斜率，因此：

RT ~ 1 + A*B*Groups + (1| Subject ID)

我应该先添加协变量，将其作为主要效果（+性别）还是作为交互的一部分（* Gender），然后查看是否为A添加斜率会有所不同（通过使用anova（）函数），或者我可以先增加斜率（理论上更重要），然后再看性别是否重要？

Answer 1

以下是有关您的两个问题的一些建议。

我会推荐一种迭代建模策略。
从...开始
```
 RT ~ 1 + A*B*Groups*Gender + (1+A | Subject ID) 
```
看看问题是否可以解决。 上面的模型将包括加性效应以及A ， B ， Groups和Gender之间A 所有交互项。
如果问题无法解决，请丢弃Gender与其他协变量之间的相互作用项，然后进行建模
```
 RT ~ 1 + A*B*Groups + Gender + (1+A | Subject ID) 
```
如果没有观察数的任何细节，就很难做出关于潜在过度拟合的陈述。
关于您的第二个问题：通常，我建议贝叶斯方法。 看一下基于rstan的brms R软件包，它使您可以使用相同的lme4 / glmm公式语法，从而使转换模型变得容易。 模型比较和预测性能是非常广泛的术语。 存在多种方式来探索和比较这些类型的嵌套/分层贝叶斯模型的预测性能。 例如，参见Piironi和Vehtari以及Vehtari和Ojanen的论文。