R：将探索性变量的分布调整为已知的非正态分布

Question

我有一个美国人口样本的数据。 样本的数据集具有N = 10,000个记录。 每行用一个定量的解释变量E来描述，该变量会影响人们退还购买物品的概率R。 样本和总体必须具有相似的E分布，以确保将其链接到R的统计模型的有效性。

在美国人口和样本中， E的频率分布之间存在显着差异（请参见下面的摘要）。 特别是，正态分布似乎不能很好地描述人口分布。

Value of E  Population Distribution of E    Sample Distribution of E
0-10        56.57%  92.95%
10.01 - 20  6.90%   1.19%
20.01 - 30  8.29%   1.38%
30.01-40    5.87%   0.85%
40.01 - 50  8.18%   0.32%
50.01 - 60  4.63%   0.48%
60.01-70    1.34%   0.32%
70.01 - 80  1.50%   0.08%
80.01 - 90  0.29%   0.49%
90.01-100   3.72%   1.12%
100.01-110  2.10%   0.69%
110.01-120  0.24%   0.00%
120.01+     0.35%   0.13%

为了使样本的E分布更类似于总体的E分布 ，并希望与之匹配， R中有什么好事要做？ 我试图过滤掉E值低的样本数据，但无济于事。 同时，由于大多数常见的转换尝试将数据拟合为正态分布，因此我不确定使用哪个转换，这似乎不适用于此。

我本人认为E的变换（可能包括权重）是允许的，删除行的边界是可以接受的，并且禁止创建新的行---但是，对于在类似于我的情况下通常认为允许的操作，我将不胜感激。

Answer 1

最好的方法是使用预测间隔。 显然，您的大多数样本的E值都非常低。这意味着您对R的预测值（对于E值低）相对有信心。但是，随着您离数据范围越来越远（即较高的E），则您对R的预测信心不足。

R：将探索性变量的分布调整为已知的非正态分布

问题描述

1 个解决方案

解决方案1
0 2015-10-13 23:04:16

R：将探索性变量的分布调整为已知的非正态分布

问题描述

1 个解决方案

解决方案1 0 2015-10-13 23:04:16

解决方案1
0 2015-10-13 23:04:16