繁体   English   中英

R - 预测多个时间序列(15K 产品)

[英]R - Forecast multiple time-series (15K Products)

嗨堆栈溢出社区。

我有超过 15K 种产品的 5 年每周价格数据(5*15K**52 条记录)。 每个产品都是一个单变量时间序列。 目标是预测每种产品的价格。

我熟悉单变量时间序列分析,我们可以在其中可视化每个 ts 序列,绘制其 ACF、PACF 并预测该序列。 但是,单变量时间序列分析在这种情况下是不可能的,因为我有 15K 个不同的时间序列,无法可视化每个时间序列、其 ACF、PACF 和每个产品的单独预测,并对其进行调整/决定。

我正在寻找一些建议和方向来使用 R(最好)解决这个多系列预测问题。 任何帮助和支持将不胜感激。

提前致谢。

我建议您使用forecast包中的auto.arima

这样您就不必搜索正确的 ARIMA 模型。

auto.arima:根据 AIC、AICc 或 BIC 值返回最佳 ARIMA 模型。 该函数在提供的顺序约束内对可能的模型进行搜索。

fit <- auto.arima(WWWusage)
plot(forecast(fit,h=20))

您可以放置​​一个时间序列,而不是 WWWusage,以适合 ARIMA 模型。 使用forecast您然后执行预测 - 在这种情况下提前 20 个时间步 ( h=20 )。

auto.arima 基本上为您选择 ARIMA 参数(根据 AIC - Akaike 信息准则)。

如果对您来说计算成本太高,您将不得不尝试。 但总的来说,预测这么多时间序列并不少见。

要记住的另一件事可能是,毕竟这可能不是那么不可能,时间序列中存在一些互相关。 因此,从预测精度的角度来看,不将其视为单变量预测问题是有意义的。

它的设置听起来与最近在 Kaggle 上举行的m5 预测竞赛非常相似。 目标是预测沃尔玛在美国销售的各种产品的单位销售额。

所以很多时间序列的销售数据来预测。 在这种情况下,获胜者没有进行单变量预测。 这里有一个链接到获胜解决方案的描述。 由于设置看起来与您的非常相似,因此在此挑战的 kaggle 论坛中阅读一些内容可能是有意义的 - 甚至可能有有用的笔记本(代码示例)可用。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM