繁体   English   中英

预测时间序列数据中的多个要素(使用键)

[英]Forecast multiple features in Time Series Data (using key)

我有一个过去两年多个用户活动的数据集。 我的问题是预测某个人很可能在不久的将来做什么样的活动。

例如:

Today is 2019-05-27 
Input should be user_id (ex: 1)

然后它必须产生如下的东西:

  • user_id 1的用户可能会在2019-05-30爬山
  • 具有user_id 1的用户可能会在2019-06-02去旅行

应使用用户活动历史记录预测所有这些。 (每项活动的频率可以不同)

如何在python上使用机器学习解决这个问题?

什么算法最适合这种问题?

任何(时间序列分析)tsa算法将首先适用于您的问题陈述

1.您需要清理数据并以算法可以学习的格式提供数据。

2.您可以创建一个包含两列或更多列的pandas数据框,首先是具有所有日期的索引,时间和第二列将具有向量/数字,表示从第三列开始的数据集中的活动,您可以保留值不同列中的不同用户|---------------------|------------------| | index | data_user1 | |---------------------|------------------| | date | activity_label | |---------------------|------------------| |---------------------|------------------| | index | data_user1 | |---------------------|------------------| | date | activity_label | |---------------------|------------------|

3.要将活动转换为矢量/数字,可以使用标签编码器

4.在数据集中输入缺少的时间戳。

5.使用任何tsa算法,使用LSTM / NN的滑动窗口方法或来自statsmodels.tsa的预先实现的算法

我建议你使用ARIMA / SARIMA,如果你有正确形式的日期,就像写这3行一样简单。

model=statsmodels.api.tsa.SARIMAX(train_df,order=(1,0,1),seasonal_order=(1,1,0,24))
model = model.fit()
model.predict()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM