我创建了一个类以在引导后返回置信区间，但是我的置信区间看起来很窄。我做错了什么？

Question

我的目的是让代码在给定列表上执行引导（统计），其样本大小等于列表的长度10,000次，然后计算95％的置信区间。

import numpy
from random import choice

class bootstrapping(object):

    def __init__(self,bslist=[],iteration=10000):
        self.bslist = bslist
        self.iteration = iteration

    def CI(self):
        listofmeans = []

        for numbers in range(0,self.iteration):
            bootstraplist = [choice(self.bslist) for _ in range(len(self.bslist))]
            listofmeans.append(sum(bootstraplist) / len(bootstraplist))

        s = numpy.std(listofmeans)
        z = 1.96
        n = self.iteration**0.5

        lower_confidence = (sum(listofmeans) / len(listofmeans)) - (z*s/n)
        upper_confidence = (sum(listofmeans) / len(listofmeans)) + (z*s/n)

        return lower_confidence,upper_confidence

test = bootstrapping([60,33,102,53,63,33,42,19,31,86,15,50,
                      45,47,26,23,30,20,18,48,22,20,17,29,43,52,29],10000)
test.CI()

我得到的置信区间（37.897427638499948，38.102572361500052）很窄。 当我在Minitab中输入相同的数字列表时，我得到的95％置信区间为（30.74，47.48）。 我做错了什么吗？

Answer 1

要找到95％的置信区间，令z = 1.96 （大约），并计算平均值左右的区间，即正负z*std ，其中std是标准偏差。 换句话说，使用z*std而不是z*std/n ：

import numpy as np
import random
random.seed(2017)

class Bootstrapping(object):

    def __init__(self,bslist=[],iteration=10000):
        self.bslist = bslist
        self.iteration = iteration

    def CI(self):
        listofmeans = []

        for numbers in range(0,self.iteration):
            bootstraplist = [random.choice(self.bslist) for _ in range(len(self.bslist))]
            mean = sum(bootstraplist) / len(bootstraplist)
            listofmeans.append(mean)

        mean = np.mean(listofmeans, axis=0)
        std = np.std(listofmeans, axis=0)
        z = 1.96
        err = z*std
        lower_confidence = mean - err
        upper_confidence = mean + err

        return lower_confidence, upper_confidence

test = Bootstrapping([60,33,102,53,63,33,42,19,31,86,15,50,
                      45,47,26,23,30,20,18,48,22,20,17,29,43,52,29],10000)
print(test.CI())

产量

(31.309540089458281, 46.876348799430602)

或者，您可以计算置信区间，而无需使用平均值+/- 1.96 * std公式。 您可以通过对listofmeans进行排序并找到第5个百分位数和第95个百分位数的值来获得置信区间的经验估计：

import random
random.seed(2017)

class Bootstrapping(object):

    def __init__(self,bslist=[],iteration=10000):
        self.bslist = bslist
        self.iteration = iteration

    def CI(self):
        listofmeans = []

        for numbers in range(0,self.iteration):
            bootstraplist = [random.choice(self.bslist) for _ in range(len(self.bslist))]
            mean = sum(bootstraplist) / len(bootstraplist)
            listofmeans.append(mean)

        listofmeans = sorted(listofmeans)    
        a, b = round(self.iteration*0.05), round(self.iteration*0.95)
        lower_confidence = listofmeans[a]
        upper_confidence = listofmeans[b]

        return lower_confidence, upper_confidence

test = Bootstrapping([60,33,102,53,63,33,42,19,31,86,15,50,
                      45,47,26,23,30,20,18,48,22,20,17,29,43,52,29],10000)
print(test.CI())

产量

(32.888888888888886, 45.888888888888886)

我创建了一个类以在引导后返回置信区间，但是我的置信区间看起来很窄。我做错了什么？

问题描述

1 个解决方案

解决方案1
3 已采纳 2017-02-01 21:28:48

我创建了一个类以在引导后返回置信区间，但是我的置信区间看起来很窄。 我做错了什么？

问题描述

1 个解决方案

解决方案1 3 已采纳 2017-02-01 21:28:48

我创建了一个类以在引导后返回置信区间，但是我的置信区间看起来很窄。我做错了什么？

解决方案1
3 已采纳 2017-02-01 21:28:48