我是否保留具有數字類別的要素或創建虛擬變量？

Question

我正在使用具有數字特征和功能組合的數據集，這些功能是類別但用整數編碼。 例如，如果是賽馬，

horse_id   race_date    track_no        race_number    barrier_number  won_race  
1          2016-10-01   100             1              4               1
2          2016-10-01   100             1              3               0
1          2016-10-15   200             3              5               0
...

所以，如果我正在創建一個馬匹贏得比賽概率的模型，並使用像race_number這樣的功能（同一天可以在同一個賽道上進行幾場比賽，這應該對賽道狀況產生影響）和barrier_number （馬可能更喜歡在內部障礙物或外部障礙物等），我應該保留這些特征，還是創建虛擬變量，指示每行上變量的1（存在）和0（不存在）？

這是一個簡單的示例，但這些列可能具有大量可能的值，並且創建虛擬變量將大大增加要素的維度。 這是一個必須做出的權衡，還是只留下一個專欄呢？

編輯：另外，如果我按原樣離開列並將其轉換為熊貓中的護理dtype，這是一個好習慣嗎？ 像Scikit-learn這樣的現有ML庫是否會正確處理？

Answer 1

對於描述的功能（ race_number ， barrier_number ），我相信離開原樣是完全可以的。 但是，對於上面的示例，我將編碼track_no功能。

這是因為各個track_no值之間沒有關系。

我會把上面的例子變為：

horse_id   race_date    track_100      track_200        race_number    barrier_number  won_race  
1          2016-10-01   1              0                1              4               1
2          2016-10-01   1              0                1              3               0
1          2016-10-15   0              1                3              5               0

我希望有所幫助！

我是否保留具有數字類別的要素或創建虛擬變量？

問題描述

1 個解決方案

解決方案1
0 2016-10-17 09:58:31

我是否保留具有數字類別的要素或創建虛擬變量？

問題描述

1 個解決方案

解決方案1 0 2016-10-17 09:58:31

解決方案1
0 2016-10-17 09:58:31