Pandas groupby std 返回一個空的 dataframe

Question

我有一個 pandas dataframe 具有以下感興趣的列 - 產品代碼和價格。 我想查看具有相同代碼的產品的標准偏差。

df.price = pd.to_numeric(df.price, errors='raise')

len(df[df.price.isna()])
Out: 0

df.groupby(['productcode'])['price'].describe()

    count   unique  top freq
productcode             

T1H5T   1   1   38  1
T1J0T   1   1   11  1
T1L6E   1   1   24  1
T1H0G9  1   1   69  1

如您所見，大多數產品代碼只出現一次。 當我運行 describe 時，諸如 std、mean 等指標由於某種原因沒有出現。

當我特別要求運行標准偏差時，我得到以下信息

df.groupby(['productcode'])['price'].std(ddof=0)
Out: _

df[['productcode', 'price']].groupby(['productcode']).mean()
Out: DataError: No numeric types to aggregate

Answer 1

經歷了我的錯誤很多次，顯然錯誤是當我使用 to_numeric 時，無論是引發錯誤還是強制錯誤，它實際上並沒有改變列的數據類型，它仍然被歸類為 object。 使用

df.price = df.price.astype(float)

能夠解決這個問題。 這也是為什么當我嘗試使用 describe() 方法時，它只會列出適用於分類變量的指標。 我非常感謝您@Laurent 和@jezrael 的回答！

Answer 2

如果使用errors='raise'如果有非數字值，則返回相同的輸出，而不是數字。

需要：

df.price = pd.to_numeric(df.price, errors='coerce')

Answer 3

因此，給定以下玩具 dataframe：

import pandas as pd

df = pd.DataFrame(
    {
        "productcode": {
            0: "T1H 4K3",
            1: "T1H6X",
            2: "T1H4K",
            3: "T1H4K",
            4: "T1H6X",
            5: "T1H 4K3",
        },
        "price": {0: "47", 1: "28", 2: "47", 3: "25", 4: "19", 5: "47"},
    }
)
print(df)
# Outputs
  productcode price
0     T1H 4K3    47
1       T1H6X    28
2       T1H4K    47
3       T1H4K    25
4       T1H6X    19
5     T1H 4K3    47

您可以獲得具有相同代碼的產品的標准偏差，如下所示：

print(df.groupby("productcode").std())
# Outputs
                 price
productcode
T1H 4K3       0.000000
T1H4K        15.556349
T1H6X         6.363961

Pandas groupby std 返回一個空的 dataframe

問題描述

2 個解決方案

解決方案1
1 已采納 2021-12-04 09:44:04

解決方案2
0 2021-12-02 12:08:57

解決方案3
0 2021-12-04 07:41:54

Pandas groupby std 返回一個空的 dataframe

問題描述

2 個解決方案

解決方案1 1 已采納 2021-12-04 09:44:04

解決方案2 0 2021-12-02 12:08:57

解決方案3 0 2021-12-04 07:41:54

解決方案1
1 已采納 2021-12-04 09:44:04

解決方案2
0 2021-12-02 12:08:57

解決方案3
0 2021-12-04 07:41:54