[英]confusion on 2 dimension kernel density estimation in R
內核密度估計器用於估計特定的概率密度函數(請參閱mvstat.net和sckit-learn文檔以獲取參考)
我的困惑是kde2d()
到底是做什么的? 在下面的示例中,是否估計兩個隨機變量f(a,b)的聯合分布概率密度函數? 顏色是什么意思?
這是我參考的代碼示例。
b <- log10(rgamma(1000, 6, 3))
a <- log10((rweibull(1000, 8, 2)))
density <- kde2d(a, b, n=100)
colour_flow <- colorRampPalette(c('white', 'blue', 'yellow', 'red', 'darkred'))
filled.contour(density, color.palette=colour_flow)
什么是核密度估計器? 從本質上講,它適合數據的每個點(法線密度的中心就是該點)上的一條法線密度曲線,然后將所有法線密度加到一個核密度估計器上。
為了便於說明,我將從您的鏈接之一添加一維內核密度估計器的圖像。
二維核密度呢?
# library(MASS)
b <- log10(rgamma(1000, 6, 3))
a <- log10((rweibull(1000, 8, 2)))
# a and b contain 1000 values each.
density <- kde2d(a,b,n=100)
該函數創建一個從min(a)
到max(a)
以及從min(b)
到max(b)
。 相反,在裝修上的每個值一個很小的1D正常密度的a
或b
, kde2d
現在套在網格中的每一點微小的2D正常密度。 就像在一維情況下的內核密度一樣,它然后將所有密度值相加。
顏色是什么意思? 正如@cel在評論中指出的那樣:估計概率取決於兩個變量,所以我們現在有三個軸( a
, b
和estimated probability
)。 可視化3軸的一種方法是使用等概率線 。 這聽起來很花哨,但它與我們從天氣預報中獲得的高/低壓圖像基本相同。
您正在使用
filled.contour(density,
color.palette = colorRampPalette(c('white', 'blue', 'yellow', 'red', 'darkred')))))
因此,從低到高,該地塊將被着色white
, blue
, yellow
, red
,並最終darkred
的估計概率最高值。 結果如下圖:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.