繁体 English 中英

scipy.stats.mannwhitneyu 的备选方案的 p 值和 null 假设

[英]p-value and null hypothesis for the alternatives of scipy.stats.mannwhitneyu

原文 2022-03-24 17:34:41 9 1 python/ scipy/ statistics/ pingouin

我在 python 中使用pingouin 库，它又使用scipy.stats来实现 Mann-Whitney U 测试。

查看示例代码，我们看到两个独立的数据集 x 和 y，其中分布排序 x 小于 y

我的问题是：为什么备择假设的 MWU 的 p 值比“双侧”备择假设的“少”一半。 我也在我的用例中看到了这一点。

我的困惑：如果备择假设是双侧Dist(x) =/= Dist(x)那么 H0 是Dist(x) = Dist(y) 。 到目前为止一切顺利，p 值告诉我 H0 为真的概率为 0.5%。 凉爽的。

如果我再次运行 MWU，备择假设为“较少”，则为Dist(x) < Dist(y) 。 所以，我想 H0' 的 null 假设是Dist(x) >= Dist(y) ，这与Dist(X) > Dist(y) or Dist(X) = Dist(y)相同. 结果告诉我 H0' 为真的概率为 0.2%。 当 H0' 是 H0 和其他东西的析取时，H0 的概率怎么会小于 H0' 的概率呢？

我查看了 scipy.stats 文档，但是文档的 ie 部分中 > 和 < 标志的翻转让我感到困惑。

这是否意味着“更少”或“更大”替代假设的 null 假设不包括相等部分？ （这实际上可以解释它，但我不知道是否是这种情况）。 我不知道这个文档中的 ie 文本是否真的是错字，因为我认为 F 和 G 是备择假设，而不是 null 假设，然后需要翻转。

我相信我了解 MWU 背后的理论。 我想这更多是关于这个特定 function 的文档问题，以防其他人使用过它。 查看源代码对我没有帮助。

1 个解决方案

我再次误解了 p 值，所以：

在双侧测试中，H0 是Dist(X) = Dist(Y)并且 p 值告诉我 P(X,Y 或更多极端数据 | H0) = 0.5%（我有向后的依赖性）

在单侧测试中，H0' 是Dist(X) = Dist(Y) or Dist(X) > Dist(Y)并且 p 值告诉我 P(X,Y 或更多极端数据 | H0') = 0.2%。 通俗地说，因为我们扩大了假设以涵盖更多的值，所以我的数据出现的概率更小，因为它不符合那个假设，所以我们可以拒绝它。