簡體   English   中英

分類特征編碼為Scikit-Learn的枚舉

[英]Categorical Feature Encoding as Enum for Scikit-Learn

我目前正在嘗試使用Scikit-Learns的RandomForest模型(回歸)預先處理具有大量分類特征的非常大的數據集。 分類數據的性質要求不通過編碼方案添加任何標准。 H2o ML-Framework( Link )提供了enum -encoding,它可以完美地適應我的數據。 但是我依靠Scikit-Learns RandomForest。

是否有人知道Scikit-Learn Models的一些enum編碼? (One-Hot-Encoding不是一個選項)

提前致謝!

在sklearn中只有標簽編碼, LabelEncoder和OHE。 但是,它沒有提供您想要的功能,因為類別只是編碼為整數,這對於序數類別只是有意義的,我相信。 我相信,在sklearn中,它需要模型來實現這種枚舉類別處理(因為sklearn中有許多模型,而且大多數模型都無法從這種編碼中受益)。

我認為, LightGBM 在這里聲稱它實現了內部這種類型的類別處理,但實際上我並不是100%確定是否屬實。 它的優點是它們同時具有RF和GBM樹構建器,因此您可以輕松地在它們之間切換,並且它比sklearn實現更快。

另請注意, CatBoost有一個用於內部類別編碼的覆蓋率工具包,但到目前為止我沒有經驗。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM