如何在 gensim 中的 word2vec model 中嵌入用戶名

Question

我有一些志願論文寫作，格式如下：

volunteer_names, essay
["emi", "jenne", "john"], [["lets", "protect", "nature"], ["what", "is", "nature"], ["nature", "humans", "earth"]]
["jenne", "li"], [["lets", "manage", "waste"]]
["emi", "li", "jim"], [["python", "is", "cool"]]
...
...
...

我想根據他們的論文寫作來識別相似的用戶。 我覺得 word2vec 更適合這樣的問題。 但是，由於我也想在 model 中嵌入用戶名，我不知道該怎么做。 我在互聯網上找到的示例僅使用單詞（參見示例代碼）。

import gensim 
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)

在這種情況下，我想知道 word2vec 中是否有特殊的方法可以做到這一點，或者我可以簡單地將用戶名視為輸入到 model 的單詞。 請讓我知道您對此的看法。

如果需要，我很樂意提供更多詳細信息。

Answer 1

Word2vec 從周圍的詞中推斷詞的表示：相似的詞經常出現在相似的公司中，最終得到相似的向量。 通常，考慮 5 個字的 window。 因此，如果您想破解 Word2vec，您需要確保學生姓名出現的頻率足夠高（可能出現在句子的開頭和結尾或類似的地方）。

或者，您可以查看 Doc2vec。 在訓練期間，每個文檔都獲得一個 ID 並學習該 ID 的嵌入，它們在查找表中，就好像它們是詞嵌入一樣。 如果您使用學生姓名作為文檔 ID，您將獲得學生嵌入。 如果您有來自一個學生的多篇論文，我想您需要稍微破解 Gensim 才能使每篇論文都沒有唯一的 ID。

如何在 gensim 中的 word2vec model 中嵌入用戶名

問題描述

1 個解決方案

解決方案1
2 已采納 2020-04-21 07:42:13

如何在 gensim 中的 word2vec model 中嵌入用戶名

問題描述

1 個解決方案

解決方案1 2 已采納 2020-04-21 07:42:13

解決方案1
2 已采納 2020-04-21 07:42:13