繁体   English   中英

Pandas groupby std 返回一个空的 dataframe

[英]Pandas groupby std returning an empty dataframe

我有一个 pandas dataframe 具有以下感兴趣的列 - 产品代码和价格。 我想查看具有相同代码的产品的标准偏差。

df.price = pd.to_numeric(df.price, errors='raise')

len(df[df.price.isna()])
Out: 0

df.groupby(['productcode'])['price'].describe()

    count   unique  top freq
productcode             

T1H5T   1   1   38  1
T1J0T   1   1   11  1
T1L6E   1   1   24  1
T1H0G9  1   1   69  1

如您所见,大多数产品代码只出现一次。 当我运行 describe 时,诸如 std、mean 等指标由于某种原因没有出现。

当我特别要求运行标准偏差时,我得到以下信息

df.groupby(['productcode'])['price'].std(ddof=0)
Out: _

df[['productcode', 'price']].groupby(['productcode']).mean()
Out: DataError: No numeric types to aggregate

经历了我的错误很多次,显然错误是当我使用 to_numeric 时,无论是引发错误还是强制错误,它实际上并没有改变列的数据类型,它仍然被归类为 object。 使用

df.price = df.price.astype(float)

能够解决这个问题。 这也是为什么当我尝试使用 describe() 方法时,它只会列出适用于分类变量的指标。 我非常感谢您@Laurent 和@jezrael 的回答!

如果使用errors='raise'如果有非数字值,则返回相同的输出,而不是数字。

需要:

df.price = pd.to_numeric(df.price, errors='coerce')

因此,给定以下玩具 dataframe:

import pandas as pd

df = pd.DataFrame(
    {
        "productcode": {
            0: "T1H 4K3",
            1: "T1H6X",
            2: "T1H4K",
            3: "T1H4K",
            4: "T1H6X",
            5: "T1H 4K3",
        },
        "price": {0: "47", 1: "28", 2: "47", 3: "25", 4: "19", 5: "47"},
    }
)
print(df)
# Outputs
  productcode price
0     T1H 4K3    47
1       T1H6X    28
2       T1H4K    47
3       T1H4K    25
4       T1H6X    19
5     T1H 4K3    47

您可以获得具有相同代码的产品的标准偏差,如下所示:

print(df.groupby("productcode").std())
# Outputs
                 price
productcode
T1H 4K3       0.000000
T1H4K        15.556349
T1H6X         6.363961

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM