![](/img/trans.png)
[英]How to multi-label classify movies to film festivals based on its metadata, where the metadata is predominantly individual words?
[英]How can I suggest movies based off someone's prior-watched movies?
對於我正在進行的機器學習練習,我得到了一個數據集,其中每一行都包含以下特征:
我的任務是根據這些特征推薦該人可能喜歡的其他電影。
問題是,我沒有獲得電影的功能集。 我只得到了上面描述的數據集。
我已經知道我需要為電影生成一個功能集。 但是,我不知道如何處理這個問題。
創建特征集后,我會將每部電影的特征集轉換為嵌入(向量)。 然后我將使用相似性匹配庫(例如 Spotify 的Annoy )來查找相似電影的返回嵌入。
我堅持的部分是如何使用數據集為每部電影生成一個特征集。
想象一下,你有一張這樣的表:
+-------+-----+--------+---------------------+
| Name | Age | Gender | Movie |
+-------+-----+--------+---------------------+
| John | 23 | Male | John the Ripper |
| Luke | 18 | Male | The Star Wars |
| Ann | 18 | Female | Mr. Nobody |
| Alice | 12 | Female | Alice in Wonderland |
| Bruce | 64 | Male | Armageddon |
+-------+-----+--------+---------------------+
一、首先你需要把這張表分成兩部分:
二、 之后,您可以將字符串編碼為數字:
例如:
+------+-----+--------+-------+
| Name | Age | Gender | Movie |
+------+-----+--------+-------+
| 0 | 23 | 1 | 3 |
| 1 | 18 | 1 | 2 |
| 2 | 18 | 0 | 4 |
| 3 | 12 | 0 | 1 |
| 4 | 64 | 1 | 0 |
+------+-----+--------+-------+
三、 然后你可以將你的向量分成兩部分:
這個單獨集之間的比例可能不同,但通常訓練數據集選擇大於測試數據集。
四、 有時您可能需要擴展數據。
例如:
+------+--------+--------+-------+
| Name | Age | Gender | Movie |
+------+--------+--------+-------+
| 0.0 | 0.3594 | 1 | 0.6 |
| 0.2 | 0.2813 | 1 | 0.4 |
| 0.4 | 0.2813 | 0 | 0.8 |
| 0.6 | 0.1875 | 0 | 0.2 |
| 0.8 | 1.0000 | 1 | 0.0 |
+------+--------+--------+-------+
在此示例中,在步驟 I-IV 之后,您將獲得:
feature_train = [[ 0.0, 0.3594, 1 ], [ 0.2, 0.2813, 1 ], [ 0.4, 0.2813, 0 ]]
purpose_train = [ 0.6, 0.4, 0.8 ]
feature_test = [[ 0.6, 0.1875, 0], [0.8, 1.0000, 1]]
purpose_test = [[ 0.2, 0.0]]
這就是以簡單的方式准備數據。
[UDP]
完成所有這些步驟后,您應該根據數據教授您的算法,然后您可以根據所選電影的姓名、年齡和性別預測最喜歡的電影。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.