簡體   English   中英

我是否保留具有數字類別的要素或創建虛擬變量?

[英]Do I leave features with numeric categories as it is or create dummy variables?

我正在使用具有數字特征和功能組合的數據集,這些功能是類別但用整數編碼。 例如,如果是賽馬,

horse_id   race_date    track_no        race_number    barrier_number  won_race  
1          2016-10-01   100             1              4               1
2          2016-10-01   100             1              3               0
1          2016-10-15   200             3              5               0
...

所以,如果我正在創建一個馬匹贏得比賽概率的模型,並使用像race_number這樣的功能(同一天可以在同一個賽道上進行幾場比賽,這應該對賽道狀況產生影響)和barrier_number (馬可能更喜歡在內部障礙物或外部障礙物等),我應該保留這些特征,還是創建虛擬變量,指示每行上變量的1(存在)和0(不存在)?

這是一個簡單的示例,但這些列可能具有大量可能的值,並且創建虛擬變量將大大增加要素的維度。 這是一個必須做出的權衡,還是只留下一個專欄呢?

編輯:另外,如果我按原樣離開列並將其轉換為熊貓中的護理dtype,這是一個好習慣嗎? 像Scikit-learn這樣的現有ML庫是否會正確處理?

對於描述的功能( race_numberbarrier_number ),我相信離開原樣是完全可以的。 但是,對於上面的示例,我將編碼track_no功能。

這是因為各個track_no值之間沒有關系。

我會把上面的例子變為:

horse_id   race_date    track_100      track_200        race_number    barrier_number  won_race  
1          2016-10-01   1              0                1              4               1
2          2016-10-01   1              0                1              3               0
1          2016-10-15   0              1                3              5               0

我希望有所幫助!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM