簡體   English   中英

使用Scikit-Learn的SVR,如何將分類和連續特征結合起來預測目標?

[英]Using Scikit-Learn's SVR, how do you combine categorical and continuous features in predicting the target?

我想使用支持向量機來解決回歸問題,根據一些混合了分類和連續的特征來預測教師的收入。 例如,我有[白人,亞洲人,西班牙裔,黑人],#年教學和多年教育。

對於分類,我使用了sci-kit的預處理模塊,並對4場比賽進行了熱門編碼。 在這種情況下,對於白人教師來說它看起來像[1,0,0,0],因此我有一個{[1,0,0,0],[0,1,0,0]的數組,... [0,0,1,0],[1,0,0,0]}表示為SVR編碼的每位教師的比賽。 我可以只用種族與收入進行回歸,即:

clf= SVR(C=1.0)
clf.fit(racearray, income) 

我也可以使用定量特征進行回歸。 但是,我不知道如何將這些功能組合在一起,即

continousarray(zip(yearsteaching,yearseduction))
clf.fit((racearray, continousarray), income)

你可以使用scikit-learn的OneHotEncoder 如果你的數據是numpy數組“racearray”,列是

[contionus_feature1,contious_feature2,categorical,continous_feature3]

你的代碼應該是這樣的(請記住,numpy枚舉從0開始)

from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(categorical_features=[2])
race_encoded = enc.fit_transform(racearay)

然后你可以像往常一樣查看你的race_encode數組,並在SVR中使用它

clf= SVR(C=1.0)
clf.fit(race_encoded, income) 

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM