繁体   English   中英

R 的代码,用于从均匀随机数中获得遵循卡方分布的直方图

[英]R's code to obtain a histogram following a chi-square distribution from uniform random numbers

我在我的教科书中有一个代码(用日语编写),用于从均匀分布生成具有 3 个自由度的卡方分布。 我对此进行了改进并创建了一个代码来获得一个直方图,该直方图遵循具有 4 个自由度的卡方分布。 这与 R 的分布函数非常吻合,所以我认为它可能工作正常(参见下面的 Box1)。

我试图进一步改进 Box1 的代码,以获得具有指定自由度的卡方分布的直方图,但它并没有出现很多错误。 (见方框 2)

我的问题:

Box2 用于从均匀分布生成卡方分布的代码效果不佳。
请帮助我修复 Box2 代码的错误。

可能“ y<-ifelse(x<0.2,1,ifelse(x<0.4,2,ifelse(x<0.6,3,ifelse(x<0.8,4,5))))”的概括不起作用在方框 2 中。

框 1:用于获得遵循具有 4 个自由度的卡方分布的直方图的代码(可能工作正常)

ite <- 10000
sc <- numeric(ite) #★1
A<- c(20,20,20,20,20) #★2
for(i in 1:ite){
  
  s<- runif(sum(A)*5) #★3
  y<-ifelse(s<0.2,1,ifelse(s<0.4,2,ifelse(s<0.6,3,ifelse(s<0.8,4,5))))  #★4
  z1 <- table(y)
  z2 <- A*5
  z3 <- (z1-z2)^2 /z2
  sc[i] <- sum(z3)
}

hist(sc,ylim=c(0,0.35),breaks="Scott",freq=F)
curve(dchisq(x,4),add=T)

Box 1 的代码是基于以下事实设计的; 如果500=sum(A)*5个均匀随机数被分成5个相同大小的房间,进入每个房间的数字的期望值为100。这里,1st room, 2nd room,..., 5th room分别是由0≤x<0.2、0.2≤x<0.4、...和0.8≤x≤1定义。 我们可以从下面的 Box' 1 中 table(y) 的输出中看到这一点。 当然,Box 1' 的 sum(table(y)) 总是导致 500。

Box1'用于在 Box1 的代码上逐步(y)生成均匀随机数(x)逻辑

A<- c(20,20,20,20,20)
s<- runif(sum(A)*5) #★3
y<-ifelse(s<0.2,1,ifelse(s<0.4,2,ifelse(s<0.6,3,ifelse(s<0.8,4,5))))
table(y)
sum(table(y))

Box2:获得自由度 n 的卡方分布的直方图的代码(有很多错误)

chiq_dist_n<-function(numb,itr){
  A<-numeric(numb) #★2
  aa<-numeric(numb) #★4-1
  for(i in 1:numb){
    A[i]=20
  } #★2

  ntot=sum(A) 
  for(i in 1:numb){
    if (i ==1){aa[i]= A[i]/ntot                 
    }else{
      aa[i]=aa[i-1]+(A[i]/ntot) 
    }
  } #★4-2
 
  sc<-numeric(itr) #★1
  y<-numeric(ntot*numb) #★4-3
  
for(i in 1:itr){
    x<-runif(ntot*numb)
  for(k in 1:ntot*numb){
    for(j in 1:numb){
      if (x[k]<aa[numb-j+1]) {                 
        y[k]<-j               
      } else {}
    }    
}#★3
        
    z1<-table(y)
    z2<-A*ntot 
    z3<-(z1-z2)^2/z2
    sum(z3)
    sc[i]<-sum(z3)

  }
  return(sc)  
}

hist(chiq_dist(10,1000),ylim=c(0,0.35),breaks="Scott",freq=F)

生成 y 的 Box2 代码部分被剪切到 Box2' 中。 如果您查看 Box2' 的 table(y),您可以看到太多的 y[i] 为零。 我希望 Box 2' 中 table(y) 的输出与 Box 1' 中 table(y) 的输出大致相同。

Box2'用于在 Box2 的代码上逐步(y)生成均匀随机数(x)逻辑

A<- c(20,20,20,20,20)
ntot=sum(A)
numb=length(A)

aa<-numeric(numb)
for(i in 1:numb){
  if (i ==1){aa[i]= A[i]/ntot                 
  }else{
    aa[i]=aa[i-1]+(A[i]/ntot) 
  }
} #★4-2

y<-numeric(ntot*numb)
  x<-runif(ntot*numb)
  
  for(k in 1:ntot*numb){
    for(j in 1:numb){
      if (x[k]<aa[numb-j+1]) {                 
        y[k]<-j
      } else {}
    }
  }#★3

table(y)

您不需要 ifelse 来打破随机均匀分布,您只需使用cut()并指定中断次数,例如:

set.seed(111)
v = runif(10)
 [1] 0.59298128 0.72648112 0.37042200 0.51492383 0.37766322 0.41833733
 [7] 0.01065785 0.53229524 0.43216062 0.09368152

cut(v,breaks=seq(0,1,length.out=numb+2),labels=1:5)

[1] 3 4 2 3 2 3 1 3 3 1

我不太确定 A 或它的作用,但为了模拟卡方,我假设您对标签 1:(df+1) 进行随机抽样,其中 df 是自由度。 如果我们将采样数固定为 500,那么我们知道每次中断的预期值为 500/(df+1)。

因此,无需更改太多代码。

chiq_dist_n<-function(numb,ite){

sc <- numeric(ite) 
for(i in 1:ite){
  
  x<- runif(500) #★3
  y<- cut(x,breaks=seq(0,1,length.out=numb+2),labels=1:(numb+1))
  z1 <- table(y)
  z2 <- length(x)/(numb+1)
  z3 <- (z1-z2)^2 /z2
  sc[i] <- sum(z3)
}

hist(sc,ylim=c(0,0.35),breaks="Scott",freq=F,main=paste0("df=",numb))
curve(dchisq(x,numb),add=T)
}

我们尝试从 4 到 9:

par(mfrow=c(3,2))
par(mar=c(2.5,2.5,2.5,2.5))
for(i in seq(2,12,2)){
    chiq_dist_n(i,10000)
}

在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM