Python Pandas发现2个分布之间的统计差异

Question

我有2列相似的数据。 我绘制它们以比较它们的分布，并且我想量化它们之间的差异。

df = pd.DataFrame({'a':['cat','dog','bird','cat','dog','dog','dog'],
             'b':['cat','cat','cat','bird','dog','dog','dog']})

然后，我绘制数据框的两列以比较它们的分布：

ax = df['a'].value_counts().plot(kind='bar', color='blue', width=.75, legend=True, alpha=0.8)
df['b'].value_counts().plot(kind='bar', color='maroon', width=.5, alpha=1, legend=True)

我该如何统计分布的差异，以说出它们之间的相似程度？

是简单的t检验还是其他？

Answer 1

为此，通常使用双面Kolmogorov-Smirnov检验。

在Python中，您可以使用scipy.stats.ks_2samp ：

from scipy import stats

merged = pd.merge(
    df.a.value_counts().to_frame(),
    df.b.value_counts().to_frame(),
    left_index=True,
    right_index=True)

stats.ks_2samp(merged.a, merged.b)

广义地说，如果返回的元组的第二个值很小（例如小于0.05），则应拒绝分布相同的假设。

Python Pandas发现2个分布之间的统计差异

问题描述

1 个解决方案

解决方案1
2 已采纳 2018-05-07 07:34:47

Python Pandas发现2个分布之间的统计差异

问题描述

1 个解决方案

解决方案1 2 已采纳 2018-05-07 07:34:47

解决方案1
2 已采纳 2018-05-07 07:34:47