[英]Do I leave features with numeric categories as it is or create dummy variables?
我正在使用具有數字特征和功能組合的數據集,這些功能是類別但用整數編碼。 例如,如果是賽馬,
horse_id race_date track_no race_number barrier_number won_race
1 2016-10-01 100 1 4 1
2 2016-10-01 100 1 3 0
1 2016-10-15 200 3 5 0
...
所以,如果我正在創建一個馬匹贏得比賽概率的模型,並使用像race_number
這樣的功能(同一天可以在同一個賽道上進行幾場比賽,這應該對賽道狀況產生影響)和barrier_number
(馬可能更喜歡在內部障礙物或外部障礙物等),我應該保留這些特征,還是創建虛擬變量,指示每行上變量的1(存在)和0(不存在)?
這是一個簡單的示例,但這些列可能具有大量可能的值,並且創建虛擬變量將大大增加要素的維度。 這是一個必須做出的權衡,還是只留下一個專欄呢?
編輯:另外,如果我按原樣離開列並將其轉換為熊貓中的護理dtype,這是一個好習慣嗎? 像Scikit-learn這樣的現有ML庫是否會正確處理?
對於描述的功能( race_number
, barrier_number
),我相信離開原樣是完全可以的。 但是,對於上面的示例,我將編碼track_no
功能。
這是因為各個track_no
值之間沒有關系。
我會把上面的例子變為:
horse_id race_date track_100 track_200 race_number barrier_number won_race
1 2016-10-01 1 0 1 4 1
2 2016-10-01 1 0 1 3 0
1 2016-10-15 0 1 3 5 0
我希望有所幫助!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.