使用Groupby Pandas DataFrame手动计算STD

Question

我试图通过提供一种不同的手动方式来计算均值和标准差，从而为该问题编写解决方案。

a= ["Apple","Banana","Cherry","Apple"]
b= [3,4,7,3]
c= [5,4,1,4]
d= [7,8,3,7]

import pandas as pd
df =  pd.DataFrame(index=range(4), columns=list("ABCD"))

df["A"]=a
df["B"]=b
df["C"]=c
df["D"]=d

然后，我创建了一个没有重复的A列表。 然后，我对每个项目进行了分组，并对每个项目进行了计算并计算了解决方案。

import numpy as np

l= list(set(df.A))

df.groupby('A', as_index=False)
listMean=[0]*len(df.C)
listSTD=[0]*len(df.C)

for x in l:
    s= np.mean(df[df['A']==x].C.values)
    z= [index for index, item in enumerate(df['A'].values) if x==item ]
    for i in z:
        listMean[i]=s

for x in l:
    s=  np.std(df[df['A']==x].C.values)
    z= [index for index, item in enumerate(df['A'].values) if x==item ]
    for i in z:
        listSTD[i]=s

df['C']= listMean
df['E']= listSTD

print df

我使用由“ A”分组的describe()来计算平均值std。

print df.groupby('A').describe()

并测试了建议的解决方案：

result = df.groupby(['a'], as_index=False).agg(
                      {'c':['mean','std'],'b':'first', 'd':'first'})

我注意到在计算std（“ E”）时得到了不同的结果。 我很好奇，我想念什么？

Answer 1

标准偏差（SD）有两种：总体SD和样本SD。

人口SD

在此处输入图片说明

当值代表您正在研究的值的整个范围时使用。

SD样本

在此处输入图片说明

当值仅仅是该Universe的样本时使用。

默认情况下， np.std计算种群SD，而熊猫的Series.std默认计算样本SD。

In [42]: np.std([4,5])
Out[42]: 0.5

In [43]: np.std([4,5], ddof=0)
Out[43]: 0.5

In [44]: np.std([4,5], ddof=1)
Out[44]: 0.70710678118654757

In [45]: x = pd.Series([4,5])

In [46]: x.std()
Out[46]: 0.70710678118654757

In [47]: x.std(ddof=0)
Out[47]: 0.5

ddof代表“自由度”，并控制SD公式中从N减去的数字。

上面的公式图像来自此Wikipedia页面。 在那里，“未校正的样品标准偏差”是我（和其他人）称为总体SD，“校正的样品标准偏差”是样品SD。

使用Groupby Pandas DataFrame手动计算STD

问题描述

1 个解决方案

解决方案1
5 已采纳 2014-10-28 11:09:51

使用Groupby Pandas DataFrame手动计算STD

问题描述

1 个解决方案

解决方案1 5 已采纳 2014-10-28 11:09:51

解决方案1
5 已采纳 2014-10-28 11:09:51