簡體 English 中英

分類特征編碼為Scikit-Learn的枚舉

[英]Categorical Feature Encoding as Enum for Scikit-Learn

原文 2018-06-14 08:57:58 4 1 python/ encoding/ enums/ scikit-learn/ h2o

我目前正在嘗試使用Scikit-Learns的RandomForest模型（回歸）預先處理具有大量分類特征的非常大的數據集。 分類數據的性質要求不通過編碼方案添加任何標准。 H2o ML-Framework（ Link ）提供了enum -encoding，它可以完美地適應我的數據。 但是我依靠Scikit-Learns RandomForest。

是否有人知道Scikit-Learn Models的一些enum編碼？ （One-Hot-Encoding不是一個選項）

提前致謝！

1 個解決方案

在sklearn中只有標簽編碼， LabelEncoder和OHE。 但是，它沒有提供您想要的功能，因為類別只是編碼為整數，這對於序數類別只是有意義的，我相信。 我相信，在sklearn中，它需要模型來實現這種枚舉類別處理（因為sklearn中有許多模型，而且大多數模型都無法從這種編碼中受益）。

我認為， LightGBM 在這里聲稱它實現了內部這種類型的類別處理，但實際上我並不是100％確定是否屬實。 它的優點是它們同時具有RF和GBM樹構建器，因此您可以輕松地在它們之間切換，並且它比sklearn實現更快。

另請注意， CatBoost有一個用於內部類別編碼的覆蓋率工具包，但到目前為止我沒有經驗。

使用 scikit-learn 對分類特征進行特征選擇

[英]Feature selection using scikit-learn on categorical features

在 scikit-learn 中估算分類缺失值

[英]Impute categorical missing values in scikit-learn

使用scikit-learn處理分類特征

[英]Handling categorical features using scikit-learn

使用scikit-Learn建立乘法分類模型

[英]Using scikit-Learn for a multiplicative, categorical model

使用 scikit-learn 對連續變量和分類變量（整數類型）進行特征預處理

[英]Feature preprocessing of both continuous and categorical variables (of integer type) with scikit-learn

從 scikit-learn 中的 one-hot-encoding 回溯分類特征？

[英]Backtracking categorical features from one-hot-encoding in scikit-learn?

使用scikit-learn提取文本特征

[英]Text Feature Extraction using scikit-learn

使用 scikit-learn 進行特征選擇

[英]Feature selection using scikit-learn

Scikit-learn選擇回歸數據

[英]Scikit-learn feature selection for regression data

調整Scikit-Learn分類器的HOG功能

[英]Resize HOG feature for Scikit-Learn classifier

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用 scikit-learn 對分類特征進行特征選擇在 scikit-learn 中估算分類缺失值使用scikit-learn處理分類特征使用scikit-Learn建立乘法分類模型使用 scikit-learn 對連續變量和分類變量（整數類型）進行特征預處理從 scikit-learn 中的 one-hot-encoding 回溯分類特征？使用scikit-learn提取文本特征使用 scikit-learn 進行特征選擇 Scikit-learn選擇回歸數據調整Scikit-Learn分類器的HOG功能

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM