簡體   English   中英

鄰近矩陣 - 隨機森林,R

[英]Proximity Matrix - Random Forest , R

我在R中使用randomForest包,它允許計算鄰近矩陣(P)。 在包的描述中,它將參數描述為:“ 如果在調用randomForest時,如果proximity = TRUE,則輸入中的鄰近度量矩陣(基於數據點對在同一終端節點中的頻率)。

我獲得隨機森林的鄰近矩陣如下:

P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity

當我研究P矩陣時,我看到像P(i,j)= 0.971014493這樣的值,其中i和j是我的訓練數據集(x)中的兩個數據實例。 這樣的值沒有意義,因為當它乘以1000(森林中的樹數)時,得到的數字不是整數,因此是“頻率”。 有人可以幫我理解,為什么我會在鄰近矩陣中得到這樣的實數?

因為與默認預測一樣,默認接近度僅使用樹,其中既沒有觀察結果包含在用於構建該樹的樣本中(它們是“袋外”)。

對於每對案例,這種情況發生的次數會略有不同,當然也不會像1000那樣很好。

您會注意到, proximity后列出的下一個參數稱為oob.prox指示是僅使用袋對(默認值)還是使用每棵樹。

只是為了補充上面的答案,因為這對我來說看起來很奇怪,以防它會幫助任何人,根據Breiman(我引用):

'一種內在的接近度量。

由於單個樹未被刪除,因此終端節點將僅包含少量實例。 在樹中的訓練集中運行所有案例。 如果情況i和情況j都落在同一終端節點中。 增加i和j之間的接近度。 在運行結束時,鄰近度除以運行中樹的數量的兩倍 ,並且案例與其自身之間的接近度設置為等於1。

以上是在Breiman的論文中提到“使用隨機森林” ,這對隨機森林函數的引用在這里

鄰近度是兩個數據點在不同樹的同一葉節點中結束的頻率的比例。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM