R 中的自舉相關性

Question

我正在嘗試在 R 中進行自舉關聯。 我有兩個變量 Var1 和 Var2，我想獲得 Pearson 相關性的引導 p.value。

my variables look like this:
      x            y
1   .6080522    1.707642
2   1.4307273   1.772616
3   0.8226198   1.768537
4   1.7714221   1.265276
5   1.5986213   1.855719
6   1.0000000   1.606106
7   1.1678940   1.671457
8   0.6630012   1.608428
9   1.0842423   1.670619
10  0.5592512   1.107783
11  1.6442616   1.492832
12  0.8326965   1.643923
13  1.1696954   1.763181
14  0.7484543   1.762921
15  1.0842423   1.591566
16  0.9014748   1.718669
17  0.7604917   1.782863
18  0.8566499   1.796216
19  1.4307273   1.913675
20  1.7579695   1.903155

到目前為止，我有這個：

data = as.data.frame(data)
x = data$Var1
y = data$Var2
dat = data.frame(x,y)

library(boot)
set.seed(1)
bootCorTest3 <- function(data, i){
  d <- data[i, ]
  results  <- cor.test(d$x, d$y, method='pearson')
  c(est = results$estimate, stat = results$statistic, param = results$parameter, p.value = results$p.value, CI = results$conf.int)
}


b3 <- boot(dat, bootCorTest3, R = 1000)
b3

# Original (non-bootstrap) statistics with label
b3$t0
colMeans(b3$t)
boot.ci(b3, type = c("norm", "basic", "perc", "bca")) #bootstrapped CI.

引導的 p 值應該是我使用 colMeans(b3$t) 得到的值，對吧？

colMeans(b3$t) 給了我這個：

est.cor      stat.t    param.df     p.value         CI1         CI2
 0.28495324  2.13981008 48.00000000  0.14418623  0.01438146  0.51726022

似乎一切正常。 問題是我在不同的軟件上運行了相同的統計數據，結果大相徑庭。 我在這里得到的 p 值比另一個要高得多。 我認為我在這里可能做錯了什么，因為我在 R 方面並不強。

誰能給我一些關於這段代碼的反饋？ 難道我做錯了什么？ 你會得到 Pearson 相關性的引導 p.value 嗎？

感謝您的時間。

Answer 1

如果你想引導你的相關測試，你只需要從你的引導統計 function 返回相關系數。 在這種情況下，自舉相關檢驗的 p 值是不合適的，因為您忽略了相關檢驗的方向性。

檢查 CrossValidated 上的這個問題，以獲得有關執行引導假設檢驗的一些不錯的答案： https://stats.stackexchange.com/questions/20701/computing-p-value-using-bootstrap-with-r

library("boot")
data <- read.csv("~/Documents/stack/tmp.csv", header = FALSE)
colnames(data) <- c("x", "y")

data <- as.data.frame(data)
x <- data$Var1
y <- data$Var2
dat <- data.frame(x,y)

set.seed(1)

b3 <- boot(data, 
  statistic = function(data, i) {
    cor(data[i, "x"], data[i, "y"], method='pearson')
  },
  R = 1000
)
b3
#> 
#> ORDINARY NONPARAMETRIC BOOTSTRAP
#> 
#> 
#> Call:
#> boot(data = data, statistic = function(data, i) {
#>     cor(data[i, "x"], data[i, "y"], method = "pearson")
#> }, R = 1000)
#> 
#> 
#> Bootstrap Statistics :
#>      original        bias    std. error
#> t1* 0.1279691 -0.0004316781    0.314056
boot.ci(b3, type = c("norm", "basic", "perc", "bca")) #bootstrapped CI. 
#> BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
#> Based on 1000 bootstrap replicates
#> 
#> CALL : 
#> boot.ci(boot.out = b3, type = c("norm", "basic", "perc", "bca"))
#> 
#> Intervals : 
#> Level      Normal              Basic         
#> 95%   (-0.4871,  0.7439 )   (-0.4216,  0.7784 )  
#> 
#> Level     Percentile            BCa          
#> 95%   (-0.5225,  0.6775 )   (-0.5559,  0.6484 )  
#> Calculations and Intervals on Original Scale

plot(density(b3$t))
abline(v = 0, lty = "dashed", col = "grey60")

在這種沒有 p 值的情況下，可以肯定地說大部分抽樣分布的質量非常接近於零。

R 中的自舉相關性

問題描述

1 個解決方案

解決方案1
2 2019-11-08 17:56:34

R 中的自舉相關性

問題描述

1 個解決方案

解決方案1 2 2019-11-08 17:56:34

解決方案1
2 2019-11-08 17:56:34