如何根據某人之前看過的電影推薦電影？

Question

對於我正在進行的機器學習練習，我得到了一個數據集，其中每一行都包含以下特征：

這個人的名字，
年齡，
性別，以及
他們看的電影。

我的任務是根據這些特征推薦該人可能喜歡的其他電影。

問題是，我沒有獲得電影的功能集。 我只得到了上面描述的數據集。

我已經知道我需要為電影生成一個功能集。 但是，我不知道如何處理這個問題。

創建特征集后，我會將每部電影的特征集轉換為嵌入（向量）。 然后我將使用相似性匹配庫（例如 Spotify 的Annoy ）來查找相似電影的返回嵌入。

我堅持的部分是如何使用數據集為每部電影生成一個特征集。

Answer 1

想象一下，你有一張這樣的表：

+-------+-----+--------+---------------------+
| Name  | Age | Gender |        Movie        |
+-------+-----+--------+---------------------+
| John  |  23 | Male   | John the Ripper     |
| Luke  |  18 | Male   | The Star Wars       |
| Ann   |  18 | Female | Mr. Nobody          |
| Alice |  12 | Female | Alice in Wonderland |
| Bruce |  64 | Male   | Armageddon          |
+-------+-----+--------+---------------------+

一、首先你需要把這張表分成兩部分：

包含Name 、 Age 、 Gender列的特征向量。
僅包含Movie列的目的向量。

二、 之后，您可以將字符串編碼為數字：

列名稱將被編碼為唯一索引。
列年齡不會改變。
列Gender將被編碼為二進制值 (0, 1)。
列Movie將被編碼為唯一的索引值。

例如：

+------+-----+--------+-------+
| Name | Age | Gender | Movie |
+------+-----+--------+-------+
|    0 |  23 |      1 |     3 |
|    1 |  18 |      1 |     2 |
|    2 |  18 |      0 |     4 |
|    3 |  12 |      0 |     1 |
|    4 |  64 |      1 |     0 |
+------+-----+--------+-------+

三、 然后你可以將你的向量分成兩部分：

用於機器學習算法饋送的訓練數據（行 1:3 ）。
您提供的競賽 ML 算法的測試數據（第3:5 行）。

這個單獨集之間的比例可能不同，但通常訓練數據集選擇大於測試數據集。

四、 有時您可能需要擴展數據。

例如：

+------+--------+--------+-------+
| Name |  Age   | Gender | Movie |
+------+--------+--------+-------+
| 0.0  | 0.3594 |      1 | 0.6   |
| 0.2  | 0.2813 |      1 | 0.4   |
| 0.4  | 0.2813 |      0 | 0.8   |
| 0.6  | 0.1875 |      0 | 0.2   |
| 0.8  | 1.0000 |      1 | 0.0   |
+------+--------+--------+-------+

在此示例中，在步驟 I-IV 之后，您將獲得：

feature_train = [[ 0.0, 0.3594, 1 ], [ 0.2, 0.2813, 1 ], [ 0.4, 0.2813, 0 ]]
purpose_train = [ 0.6, 0.4, 0.8 ]
feature_test  = [[ 0.6, 0.1875, 0], [0.8, 1.0000, 1]]
purpose_test  = [[ 0.2, 0.0]]

這就是以簡單的方式准備數據。

[UDP]

完成所有這些步驟后，您應該根據數據教授您的算法，然后您可以根據所選電影的姓名、年齡和性別預測最喜歡的電影。

如何根據某人之前看過的電影推薦電影？

問題描述

1 個解決方案

解決方案1
0 2020-01-16 02:39:49

如何根據某人之前看過的電影推薦電影？

問題描述

1 個解決方案

解決方案1 0 2020-01-16 02:39:49

解決方案1
0 2020-01-16 02:39:49