簡體   English   中英

高基數分類特征轉化為數字

[英]High cardinal Categorical features into numerics

在大多數學術示例中,我們通常使用get_dummiesOneHotEncoder轉換類別特征。 可以說我想使用“ Country作為特征,在數據集中,我們有100個唯一的國家/地區。 當我們在國家/ get_dummies上應用get_dummies ,我們將獲得100列,並且將使用100個國家/地區列以及其他功能來訓練模型。

可以說,我們已經將此模型部署到生產中,並且我們僅接收了10個國家/地區。 當我們使用get_dummies預處理數據時,模型將無法預測,因為當我們傳遞10個國家/地區的列以及其他特征時,“經過訓練的特征數量與傳遞的特征不匹配”。

我在下面的文章中碰到過,我們可以使用監督比率,證據權重來計算分數。 但是,當我們要預測生產目標時,如何計算分數,需要將哪個國家/地區分配給正確的編號。

https://www.kdnuggets.com/2016/08/include-high-cardinality-attributes-predictive-model.html

您能幫我了解如何處理這種情況嗎?

您可以做兩件事。

  1. 在結合訓練集和測試/驗證集數據之后,再應用OHE。
  2. 跳過OHE並應用StandardScaler,因為“如果一個特征的方差比其他特征大幾個數量級,則它可能會支配目標函數,並使估計器無法按預期正確地學習其他特征。”

當我在任何分類數據集中具有多個獨特功能並且可能導致我的測試/驗證集隨時糾正我時,我通常會嘗試第二種選擇。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM