[英]Categorical Feature Encoding as Enum for Scikit-Learn
我目前正在嘗試使用Scikit-Learns的RandomForest模型(回歸)預先處理具有大量分類特征的非常大的數據集。 分類數據的性質要求不通過編碼方案添加任何標准。 H2o ML-Framework( Link )提供了enum
-encoding,它可以完美地適應我的數據。 但是我依靠Scikit-Learns RandomForest。
是否有人知道Scikit-Learn Models的一些enum
編碼? (One-Hot-Encoding不是一個選項)
提前致謝!
在sklearn中只有標簽編碼, LabelEncoder和OHE。 但是,它沒有提供您想要的功能,因為類別只是編碼為整數,這對於序數類別只是有意義的,我相信。 我相信,在sklearn中,它需要模型來實現這種枚舉類別處理(因為sklearn中有許多模型,而且大多數模型都無法從這種編碼中受益)。
我認為, LightGBM 在這里聲稱它實現了內部這種類型的類別處理,但實際上我並不是100%確定是否屬實。 它的優點是它們同時具有RF和GBM樹構建器,因此您可以輕松地在它們之間切換,並且它比sklearn實現更快。
另請注意, CatBoost有一個用於內部類別編碼的覆蓋率工具包,但到目前為止我沒有經驗。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.