[英]R: Adjusting exploratory variable's distribution to known non-normal distribution
我有一个美国人口样本的数据。 样本的数据集具有N = 10,000个记录。 每行用一个定量的解释变量E来描述,该变量会影响人们退还购买物品的概率R。 样本和总体必须具有相似的E分布,以确保将其链接到R的统计模型的有效性。
在美国人口和样本中, E的频率分布之间存在显着差异(请参见下面的摘要)。 特别是,正态分布似乎不能很好地描述人口分布。
Value of E Population Distribution of E Sample Distribution of E
0-10 56.57% 92.95%
10.01 - 20 6.90% 1.19%
20.01 - 30 8.29% 1.38%
30.01-40 5.87% 0.85%
40.01 - 50 8.18% 0.32%
50.01 - 60 4.63% 0.48%
60.01-70 1.34% 0.32%
70.01 - 80 1.50% 0.08%
80.01 - 90 0.29% 0.49%
90.01-100 3.72% 1.12%
100.01-110 2.10% 0.69%
110.01-120 0.24% 0.00%
120.01+ 0.35% 0.13%
为了使样本的E分布更类似于总体的E分布 ,并希望与之匹配, R中有什么好事要做? 我试图过滤掉E值低的样本数据,但无济于事。 同时,由于大多数常见的转换尝试将数据拟合为正态分布,因此我不确定使用哪个转换,这似乎不适用于此。
我本人认为E的变换(可能包括权重)是允许的,删除行的边界是可以接受的,并且禁止创建新的行---但是,对于在类似于我的情况下通常认为允许的操作,我将不胜感激。
最好的方法是使用预测间隔。 显然,您的大多数样本的E值都非常低。这意味着您对R的预测值(对于E值低)相对有信心。但是,随着您离数据范围越来越远(即较高的E),则您对R的预测信心不足。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.