簡體   English   中英

如何根據某人之前看過的電影推薦電影?

[英]How can I suggest movies based off someone's prior-watched movies?

對於我正在進行的機器學習練習,我得到了一個數據集,其中每一行都包含以下特征:

  • 這個人的名字,
  • 年齡,
  • 性別,以及
  • 他們看的電影。

我的任務是根據這些特征推薦該人可能喜歡的其他電影。

問題是,我沒有獲得電影的功能集。 我只得到了上面描述的數據集。

我已經知道我需要為電影生成一個功能集。 但是,我不知道如何處理這個問題。

創建特征集后,我會將每部電影的特征集轉換為嵌入(向量)。 然后我將使用相似性匹配庫(例如 Spotify 的Annoy )來查找相似電影的返回嵌入。

我堅持的部分是如何使用數據集為每部電影生成一個特征集。

想象一下,你有一張這樣的表:

+-------+-----+--------+---------------------+
| Name  | Age | Gender |        Movie        |
+-------+-----+--------+---------------------+
| John  |  23 | Male   | John the Ripper     |
| Luke  |  18 | Male   | The Star Wars       |
| Ann   |  18 | Female | Mr. Nobody          |
| Alice |  12 | Female | Alice in Wonderland |
| Bruce |  64 | Male   | Armageddon          |
+-------+-----+--------+---------------------+

一、首先你需要把這張表分成兩部分:

  1. 包含NameAgeGender列的特征向量。
  2. 僅包含Movie列的目的向量。

二、 之后,您可以將字符串編碼為數字:

  1. 名稱將被編碼為唯一索引。
  2. 年齡不會改變。
  3. Gender將被編碼為二進制值 (0, 1)。
  4. Movie將被編碼為唯一的索引值。

例如:

+------+-----+--------+-------+
| Name | Age | Gender | Movie |
+------+-----+--------+-------+
|    0 |  23 |      1 |     3 |
|    1 |  18 |      1 |     2 |
|    2 |  18 |      0 |     4 |
|    3 |  12 |      0 |     1 |
|    4 |  64 |      1 |     0 |
+------+-----+--------+-------+

三、 然后你可以將你的向量分成兩部分:

  1. 用於機器學習算法饋送的訓練數據(行 1:3 )。
  2. 您提供的競賽 ML 算法的測試數據(第3:5 行)。

這個單獨集之間的比例可能不同,但通常訓練數據集選擇大於測試數據集。

四、 有時您可能需要擴展數據。

例如:

+------+--------+--------+-------+
| Name |  Age   | Gender | Movie |
+------+--------+--------+-------+
| 0.0  | 0.3594 |      1 | 0.6   |
| 0.2  | 0.2813 |      1 | 0.4   |
| 0.4  | 0.2813 |      0 | 0.8   |
| 0.6  | 0.1875 |      0 | 0.2   |
| 0.8  | 1.0000 |      1 | 0.0   |
+------+--------+--------+-------+

在此示例中,在步驟 I-IV 之后,您將獲得:

feature_train = [[ 0.0, 0.3594, 1 ], [ 0.2, 0.2813, 1 ], [ 0.4, 0.2813, 0 ]]
purpose_train = [ 0.6, 0.4, 0.8 ]
feature_test  = [[ 0.6, 0.1875, 0], [0.8, 1.0000, 1]]
purpose_test  = [[ 0.2, 0.0]]

這就是以簡單的方式准備數據。

[UDP]

完成所有這些步驟后,您應該根據數據教授您的算法,然后您可以根據所選電影的姓名、年齡和性別預測最喜歡的電影。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM