繁体   English   中英

用于报价数据的线性回归 Model

[英]Linear Regression Model for Quote Data

我想建立一个线性回归 model 来确定各种参数对报价的影响。 报价数据收集了 10 多年。

过去 10 年的报价密度图

y = 价格

X = [系统大小(int),ZIP, Year, module_manufacturer, module_name,inverter_manufacturer,inverter_name, 电池存储(二进制), 区域内安装者/提供者的数量(int), installer_density, new_construction(binary), self_installation(binary) , 户口密度]

问题:

  1. 什么类型的回归 model 适合这个数据集?
  2. 由于技术进步,报价逐年下降。 如何计算 model 中的不同年份? 我发现了一些将年份视为二进制变量的示例。 另一种选择:每年的多个回归模型。 有没有办法组合这些多个模型?
  3. 数据集是面板数据的一种吗?

不幸的是,我还没有找到任何可以明确帮助我处理数据的信息。 但也许我没有使用正确的搜索词。 任何能推动我朝着正确方向前进的建议,我都会非常高兴。

假设您有一个名为datadata.frame ,其中包含 price、system_size、zip、year、battery_storage 等列。然后您可以从简单的线性回归开始:

lm(price ~ system_size + zip + year + battery_storage, data = data)

year包含在 model 中,因此您可以考虑随时间的变化。 如果你想去除批量影响(例如不同区域的zip代码)并且你只关心model去除不同位置的影响后的价格,你可以运行线性混合model

lmerTest::lmer(price ~ system_size + year + battery_storage + (1|zip), data = data)

如果您有很高的相关性,例如 year 和 system_size 之间的相关性,您可能希望在公式中包含诸如year:system_size类的交互项。 根据经验,每个变量需要 10 个样本才能获得合理的拟合。 如果你有更多,你可以先做一个变量选择。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM