簡體   English   中英

用於特征工程的分組和裝箱數據

[英]Grouping and binning data for feature engineering

我努力將我的數據划分為特征工程的箱。 數據是我想按分類數據(鄰里)分組的銷售價格。

我做錯了什么 - 我得到了所有行的NaN值? 謝謝!

    pricy_location = train['SalePrice'].groupby(train['Neighborhood']).mean()
    label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
    train['Pricy_Loc'] = pd.qcut(pricy_location, 5, labels=label, precision=2)
    train['Pricy_Loc'].head()

我認為問題的出現是因為您正在創建一個按鄰域分組的數據幀(只有 25 行長),然后嘗試使用為該數據幀創建的類別並將其應用於一個更長的 1460 行數據幀。 您可以簡單地在訓練數據框的新列中獲取匯總數據,然后對結果進行分類:

train['Pricy_loc'] = train.groupby('Neighborhood')['SalePrice'].transform('mean')
label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
train['Price_loc_cat'] = pd.qcut(train['Pricy_loc'], 5, labels=label, precision=2)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM