繁体   English   中英

R:将探索性变量的分布调整为已知的非正态分布

[英]R: Adjusting exploratory variable's distribution to known non-normal distribution

我有一个美国人口样本的数据。 样本的数据集具有N = 10,000个记录。 每行用一个定量的解释变量E来描述,该变量会影响人们退还购买物品的概率R。 样本和总体必须具有相似的E分布,以确保将其链接到R的统计模型的有效性。

在美国人口和样本中, E的频率分布之间存在显着差异(请参见下面的摘要)。 特别是,正态分布似乎不能很好地描述人口分布。

Value of E  Population Distribution of E    Sample Distribution of E
0-10        56.57%  92.95%
10.01 - 20  6.90%   1.19%
20.01 - 30  8.29%   1.38%
30.01-40    5.87%   0.85%
40.01 - 50  8.18%   0.32%
50.01 - 60  4.63%   0.48%
60.01-70    1.34%   0.32%
70.01 - 80  1.50%   0.08%
80.01 - 90  0.29%   0.49%
90.01-100   3.72%   1.12%
100.01-110  2.10%   0.69%
110.01-120  0.24%   0.00%
120.01+     0.35%   0.13%

为了使样本的E分布更类似于总体的E分布 ,并希望与之匹配, R中有什么好事要做? 我试图过滤掉E值低的样本数据,但无济于事。 同时,由于大多数常见的转换尝试将数据拟合为正态分布,因此我不确定使用哪个转换,这似乎不适用于此。

我本人认为E的变换(可能包括权重)是允许的,删除行的边界是可以接受的,并且禁止创建新的行---但是,对于在类似于我的情况下通常认为允许的操作,我将不胜感激。

最好的方法是使用预测间隔。 显然,您的大多数样本的E值都非常低。这意味着您对R的预测值(对于E值低)相对有信心。但是,随着您离数据范围越来越远(即较高的E),则您对R的预测信心不足。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM