![](/img/trans.png)
[英]How to fix “'.' in formula and no 'data' argument” when using randomForest function?
[英]What should be the type of categorical variable when using the function randomForest?
這只是一個一般理論問題,我在大學數據科學模擬面試中被問到這個問題,我試圖尋找這個答案,但無法在其他地方得到它。 希望有人能幫助我。 另外我對隨機森林的掌握不多
機器學習算法需要以數字形式對特征進行編碼。 您可以對特征的每個級別進行一個熱編碼(0 或 1)以指示其存在,也可以對 label 進行編碼,以便特征中的每個級別都有一個數值(1,2,3)。 通常使用 one-hot 編碼,因為 label 編碼可能會顯示該功能的順序。 one-hot 編碼的一個風險是,如果你有太多的特征,特征空間會擴展太多,導致高維特征集,如果沒有足夠的數據,這可能是一個挑戰。 因此,一些方法只對特征的最常見級別進行特征編碼。
資料來源:AceAI 面試准備、Kaggle、R 應用程序統計學習簡介
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.