预测时间序列数据中的多个要素（使用键）

Question

我有一个过去两年多个用户活动的数据集。 我的问题是预测某个人很可能在不久的将来做什么样的活动。

例如：

Today is 2019-05-27 
Input should be user_id (ex: 1)

然后它必须产生如下的东西：

user_id 1的用户可能会在2019-05-30爬山
具有user_id 1的用户可能会在2019-06-02去旅行

应使用用户活动历史记录预测所有这些。 （每项活动的频率可以不同）

如何在python上使用机器学习解决这个问题？

什么算法最适合这种问题？

Answer 1

任何（时间序列分析）tsa算法将首先适用于您的问题陈述

1.您需要清理数据并以算法可以学习的格式提供数据。

2.您可以创建一个包含两列或更多列的pandas数据框，首先是具有所有日期的索引，时间和第二列将具有向量/数字，表示从第三列开始的数据集中的活动，您可以保留值不同列中的不同用户|---------------------|------------------| | index | data_user1 | |---------------------|------------------| | date | activity_label | |---------------------|------------------| |---------------------|------------------| | index | data_user1 | |---------------------|------------------| | date | activity_label | |---------------------|------------------|

3.要将活动转换为矢量/数字，可以使用标签编码器

4.在数据集中输入缺少的时间戳。

5.使用任何tsa算法，使用LSTM / NN的滑动窗口方法或来自statsmodels.tsa的预先实现的算法

我建议你使用ARIMA / SARIMA，如果你有正确形式的日期，就像写这3行一样简单。

model=statsmodels.api.tsa.SARIMAX(train_df,order=(1,0,1),seasonal_order=(1,1,0,24))
model = model.fit()
model.predict()

预测时间序列数据中的多个要素（使用键）

问题描述

1 个解决方案

解决方案1
0 2019-05-27 11:15:10

预测时间序列数据中的多个要素（使用键）

问题描述

1 个解决方案

解决方案1 0 2019-05-27 11:15:10

解决方案1
0 2019-05-27 11:15:10