[英]Proximity Matrix - Random Forest , R
我在R中使用randomForest包,它允許計算鄰近矩陣(P)。 在包的描述中,它將參數描述為:“ 如果在調用randomForest時,如果proximity = TRUE,則輸入中的鄰近度量矩陣(基於數據點對在同一終端節點中的頻率)。 ”
我獲得隨機森林的鄰近矩陣如下:
P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity
當我研究P矩陣時,我看到像P(i,j)= 0.971014493這樣的值,其中i和j是我的訓練數據集(x)中的兩個數據實例。 這樣的值沒有意義,因為當它乘以1000(森林中的樹數)時,得到的數字不是整數,因此是“頻率”。 有人可以幫我理解,為什么我會在鄰近矩陣中得到這樣的實數?
因為與默認預測一樣,默認接近度僅使用樹,其中既沒有觀察結果包含在用於構建該樹的樣本中(它們是“袋外”)。
對於每對案例,這種情況發生的次數會略有不同,當然也不會像1000那樣很好。
您會注意到, proximity
后列出的下一個參數稱為oob.prox
指示是僅使用袋對(默認值)還是使用每棵樹。
鄰近度是兩個數據點在不同樹的同一葉節點中結束的頻率的比例。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.