[英]High cardinal Categorical features into numerics
在大多數學術示例中,我們通常使用get_dummies
或OneHotEncoder
轉換類別特征。 可以說我想使用“ Country
作為特征,在數據集中,我們有100個唯一的國家/地區。 當我們在國家/ get_dummies
上應用get_dummies
,我們將獲得100列,並且將使用100個國家/地區列以及其他功能來訓練模型。
可以說,我們已經將此模型部署到生產中,並且我們僅接收了10個國家/地區。 當我們使用get_dummies
預處理數據時,模型將無法預測,因為當我們傳遞10個國家/地區的列以及其他特征時,“經過訓練的特征數量與傳遞的特征不匹配”。
我在下面的文章中碰到過,我們可以使用監督比率,證據權重來計算分數。 但是,當我們要預測生產目標時,如何計算分數,需要將哪個國家/地區分配給正確的編號。
https://www.kdnuggets.com/2016/08/include-high-cardinality-attributes-predictive-model.html
您能幫我了解如何處理這種情況嗎?
您可以做兩件事。
當我在任何分類數據集中具有多個獨特功能並且可能導致我的測試/驗證集隨時糾正我時,我通常會嘗試第二種選擇。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.