[英]P-value in scipy.stats does not reflect the reality
我不确定这是 Stack Overflow 还是 Math Stack Exchange 的问题。
我有关于汽车 A 碰撞成本的数据,以及关于汽车 B 碰撞成本的数据。
B 类车祸发生 15 992 起,总成本为 19 890 980。B 车碰撞的平均成本为 1541.808。
然后,A 类车祸发生 2760 次,总成本为 4 255 390。A 车碰撞的平均成本为 1243.808。
很明显,汽车 A 的碰撞成本均值应低于汽车 B。我想使用 t 检验对此进行测试。 null 假设是“均值相等”。 阿尔法为 5%。
但是,当我在 python 中运行以下命令时
ttest_ind(table[B], table2[A], alternative="less",equal_var=False)
我得到的结果是这样的:(p 值表明 B 车碰撞成本的平均值不低于 A 的平均值,这是没有意义的)。
Ttest_indResult(statistic=3.417269886834147, pvalue=0.9996071028578007)
但是,如果我运行它(没有替代方案)
ttest_ind(table[B], table2[A], equal_var=False)
我明白了
Ttest_indResult(statistic=3.417269886834147, pvalue=0.0007857942843984687)
为什么第一个使用“替代”的 function 会产生异常高的 p 值? 我对 p 值有什么不正确的理解吗?
您的样品订单颠倒了。 改用:
ttest_ind(table[A], table2[B], alternative="less", equal_var=False)
从docs ,在alternative
参数下:
'less':第一个样本的分布均值小于第二个样本的分布均值。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.