scipy.stats 中的 P 值不反映现实

Question

我不确定这是 Stack Overflow 还是 Math Stack Exchange 的问题。

我有关于汽车 A 碰撞成本的数据，以及关于汽车 B 碰撞成本的数据。

B 类车祸发生 15 992 起，总成本为 19 890 980。B 车碰撞的平均成本为 1541.808。

然后，A 类车祸发生 2760 次，总成本为 4 255 390。A 车碰撞的平均成本为 1243.808。

很明显，汽车 A 的碰撞成本均值应低于汽车 B。我想使用 t 检验对此进行测试。 null 假设是“均值相等”。 阿尔法为 5%。

但是，当我在 python 中运行以下命令时

ttest_ind(table[B], table2[A],  alternative="less",equal_var=False)

我得到的结果是这样的：（p 值表明 B 车碰撞成本的平均值不低于 A 的平均值，这是没有意义的）。

Ttest_indResult(statistic=3.417269886834147, pvalue=0.9996071028578007)

但是，如果我运行它（没有替代方案）

ttest_ind(table[B], table2[A], equal_var=False)

我明白了

Ttest_indResult(statistic=3.417269886834147, pvalue=0.0007857942843984687)

为什么第一个使用“替代”的 function 会产生异常高的 p 值？ 我对 p 值有什么不正确的理解吗？

Answer 1

您的样品订单颠倒了。 改用：

ttest_ind(table[A], table2[B],  alternative="less", equal_var=False)

从docs ，在alternative参数下：

'less'：第一个样本的分布均值小于第二个样本的分布均值。