[英]Grouping and binning data for feature engineering
我努力將我的數據划分為特征工程的箱。 數據是我想按分類數據(鄰里)分組的銷售價格。
我做錯了什么 - 我得到了所有行的NaN
值? 謝謝!
pricy_location = train['SalePrice'].groupby(train['Neighborhood']).mean()
label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
train['Pricy_Loc'] = pd.qcut(pricy_location, 5, labels=label, precision=2)
train['Pricy_Loc'].head()
我認為問題的出現是因為您正在創建一個按鄰域分組的數據幀(只有 25 行長),然后嘗試使用為該數據幀創建的類別並將其應用於一個更長的 1460 行數據幀。 您可以簡單地在訓練數據框的新列中獲取匯總數據,然后對結果進行分類:
train['Pricy_loc'] = train.groupby('Neighborhood')['SalePrice'].transform('mean')
label = ['rank1', 'rank2', 'rank3', 'rank4', 'rank5']
train['Price_loc_cat'] = pd.qcut(train['Pricy_loc'], 5, labels=label, precision=2)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.