我们如何使用给定数据运行线性回归？

Question

我们拥有26个品牌的大型数据集，在399周内在93家商店中销售。 品牌仍然分为子品牌（f.ex：品牌=高露洁，但子品牌（556）仍然存在：高露洁高级白色/高露洁额外等）我们为每个Subbrand计算每周商店级别的品牌价格：计算:(每个子品牌和每周每个商店每盎司的移动量）DIVIDED BY（子品牌每盎司的移动总和，每周一个商店指一个品牌）*（每个商店每个子品牌的每盎司的原木价格））

一切正常！ 我们创建了一个包含所有详细计算的数据框（data = tooth4）我们最后的兴趣是运行线性回归来预测价格对移动变量的影响 - >现在的问题是销售变量（假人，其中如果特定商店中某个特定子品牌的特定周内有促销活动，则在subbrandlevel上 - >我们尝试在子品牌级别（变量=描述）上运行回归，但由于大数据

lm(formula = logmove_ounce ~ log_wei_price_ounce + descrip - 1 * 
    (log_wei_price_ounce) + sale - 1, data = tooth4)

logmove_ounce = log of weekly subbrand based move on store level 
log_wei_price_ounce = weighted subbrand based price for each store for each week
sale-1 = fixed effect for promotion 
descrip-1 = fixed effect for subbrand

有没有人有解决方案如何仅在品牌级别运行回归，但包括促销变量？ 我们得到一个暗示，我们可以计算每个商店的每个品牌的促销共享价值吗？ 但是怎么样？ 另一个问题，假设我的回归是正确的/部分正确的 - 我如何对结果进行加权以仅在商店级别而不是每周商店级别获得结果？

先感谢您！！！

Answer 1

我们得到一个暗示，我们可以计算每个商店的每个品牌的促销共享价值吗？ 但是怎么样？

这被称为多级模型，嵌套模型，分层模型，混合模型或随机效应模型，它们都是相同的数学模型。 它被广泛用于分析您描述的纵向面板数据的类型。 关于这个问题的一本严肃的书是格尔曼。

R中最常用的方法是使用lme4包中的lmer（）函数。 如果你在令人不舒服的大数据上使用lme4，你应该阅读他们的性能提示。

lmer()模型接受一个稍微不同的公式语法，我将仅简要描述，以便您可以看到它如何解决您遇到的问题。

例如，假设我们将未来薪水建模为某些学生的GPA和IQ的函数。 我们知道学生来自某些学校，因此所有前往同一所学校的学生都是小组的一部分，学校又分为县，州。 此外，学生在不同年份毕业可能会产生影响。 这是一个通用示例，但我之所以选择它，是因为它与您自己的纵向面板数据具有许多相同的特性。

我们可以使用通用公式语法来指定具有不同截距的组：

lmer(salary ~ gpa + iq + (1|school), data=df)

这些组的嵌套层次结构：

lmer(salary ~ gpa + iq + (1|state/county/school), data=df)

或者组变化的斜率来捕捉加班变化：

lmer(salary ~ gpa + iq + (1 + year|school), data=df)

你必须自己决定如何建模你的数据，但lme4::lmer()会给你一个比lm()更大的工具箱来处理组和级别。 如果您对建模方面有疑问，我建议您在https://stats.stackexchange.com/上询问。

我们如何使用给定数据运行线性回归？

问题描述

1 个解决方案

解决方案1
0 2019-05-14 19:16:42

我们如何使用给定数据运行线性回归？

问题描述

1 个解决方案

解决方案1 0 2019-05-14 19:16:42

解决方案1
0 2019-05-14 19:16:42