鄰近矩陣 - 隨機森林，R

Question

我在R中使用randomForest包，它允許計算鄰近矩陣（P）。 在包的描述中，它將參數描述為：“ 如果在調用randomForest時，如果proximity = TRUE，則輸入中的鄰近度量矩陣（基於數據點對在同一終端節點中的頻率）。 ”

我獲得隨機森林的鄰近矩陣如下：

P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity

當我研究P矩陣時，我看到像P（i，j）= 0.971014493這樣的值，其中i和j是我的訓練數據集（x）中的兩個數據實例。 這樣的值沒有意義，因為當它乘以1000（森林中的樹數）時，得到的數字不是整數，因此是“頻率”。 有人可以幫我理解，為什么我會在鄰近矩陣中得到這樣的實數？

Answer 1

因為與默認預測一樣，默認接近度僅使用樹，其中既沒有觀察結果包含在用於構建該樹的樣本中（它們是“袋外”）。

對於每對案例，這種情況發生的次數會略有不同，當然也不會像1000那樣很好。

您會注意到， proximity后列出的下一個參數稱為oob.prox指示是僅使用袋對（默認值）還是使用每棵樹。

Answer 2

只是為了補充上面的答案，因為這對我來說看起來很奇怪，以防它會幫助任何人，根據Breiman（我引用）：

'一種內在的接近度量。

由於單個樹未被刪除，因此終端節點將僅包含少量實例。 在樹中的訓練集中運行所有案例。 如果情況i和情況j都落在同一終端節點中。 增加i和j之間的接近度。 在運行結束時，鄰近度除以運行中樹的數量的兩倍，並且案例與其自身之間的接近度設置為等於1。

以上是在Breiman的論文中提到“使用隨機森林” ，這對隨機森林函數的引用在這里。

Answer 3

鄰近度是兩個數據點在不同樹的同一葉節點中結束的頻率的比例。

鄰近矩陣 - 隨機森林，R

問題描述

3 個解決方案

解決方案1
10 已采納 2014-05-20 15:10:08

解決方案2
6 2014-10-28 15:15:04

'一種內在的接近度量。

解決方案3
5 2015-02-19 11:45:05

鄰近矩陣 - 隨機森林，R

問題描述

3 個解決方案

解決方案1 10 已采納 2014-05-20 15:10:08

解決方案2 6 2014-10-28 15:15:04

'一種內在的接近度量。

解決方案3 5 2015-02-19 11:45:05

解決方案1
10 已采納 2014-05-20 15:10:08

解決方案2
6 2014-10-28 15:15:04

解決方案3
5 2015-02-19 11:45:05