簡體 English 中英

高基數分類特征轉化為數字

[英]High cardinal Categorical features into numerics

原文 2018-07-01 08:22:32 9 1 python/ machine-learning/ data-science/ data-processing

在大多數學術示例中，我們通常使用get_dummies或OneHotEncoder轉換類別特征。 可以說我想使用“ Country作為特征，在數據集中，我們有100個唯一的國家/地區。 當我們在國家/ get_dummies上應用get_dummies ，我們將獲得100列，並且將使用100個國家/地區列以及其他功能來訓練模型。

可以說，我們已經將此模型部署到生產中，並且我們僅接收了10個國家/地區。 當我們使用get_dummies預處理數據時，模型將無法預測，因為當我們傳遞10個國家/地區的列以及其他特征時，“經過訓練的特征數量與傳遞的特征不匹配”。

我在下面的文章中碰到過，我們可以使用監督比率，證據權重來計算分數。 但是，當我們要預測生產目標時，如何計算分數，需要將哪個國家/地區分配給正確的編號。

https://www.kdnuggets.com/2016/08/include-high-cardinality-attributes-predictive-model.html

您能幫我了解如何處理這種情況嗎？

1 個解決方案

您可以做兩件事。

在結合訓練集和測試/驗證集數據之后，再應用OHE。
跳過OHE並應用StandardScaler，因為“如果一個特征的方差比其他特征大幾個數量級，則它可能會支配目標函數，並使估計器無法按預期正確地學習其他特征。”

當我在任何分類數據集中具有多個獨特功能並且可能導致我的測試/驗證集隨時糾正我時，我通常會嘗試第二種選擇。

高基數特征的方差分析

[英]ANOVA for high cardinal features

如何將高基數分類特征轉化為用於預測性機器學習模型的數值？

[英]how to deal with high cardinal categorical feature into numeric for predictive machine learning model?

TensorForest的分類功能

[英]TensorForest categorical features

用於分類特征的 LabelEncoder？

[英]LabelEncoder for categorical features?

PCA 對於分類特征？

[英]PCA For categorical features?

編碼分類特征？

[英]encoding categorical features?

如何在Python中結合文本特征和分類特征？

[英]How to combine text features and categorical features in Python?

lightGBM中的分類特征如何編碼？

[英]How are categorical features encoded in lightGBM?

使用分類特征進行協同過濾

[英]Collaborative Filtering using categorical features

使用編碼器在 Python 中編碼分類特征

[英]Encoding categorical features in Python with Encoders

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 高基數特征的方差分析如何將高基數分類特征轉化為用於預測性機器學習模型的數值？ TensorForest的分類功能用於分類特征的 LabelEncoder？ PCA 對於分類特征？編碼分類特征？如何在Python中結合文本特征和分類特征？ lightGBM中的分類特征如何編碼？使用分類特征進行協同過濾使用編碼器在 Python 中編碼分類特征

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM