簡體   English   中英

使用 function randomForest 時,分類變量的類型應該是什么?

[英]What should be the type of categorical variable when using the function randomForest?

這只是一個一般理論問題,我在大學數據科學模擬面試中被問到這個問題,我試圖尋找這個答案,但無法在其他地方得到它。 希望有人能幫助我。 另外我對隨機森林的掌握不多

一般理論而言,隨機森林可以處理數字數據和分類數據。 function randomForest此處的文檔)支持編碼為因子的分類數據,因此這將是您的類型。

機器學習算法需要以數字形式對特征進行編碼。 您可以對特征的每個級別進行一個熱編碼(0 或 1)以指示其存在,也可以對 label 進行編碼,以便特征中的每個級別都有一個數值(1,2,3)。 通常使用 one-hot 編碼,因為 label 編碼可能會顯示該功能的順序。 one-hot 編碼的一個風險是,如果你有太多的特征,特征空間會擴展太多,導致高維特征集,如果沒有足夠的數據,這可能是一個挑戰。 因此,一些方法只對特征的最常見級別進行特征編碼。

資料來源:AceAI 面試准備、Kaggle、R 應用程序統計學習簡介

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM