如何在 gensim 中的 word2vec model 中嵌入用户名

Question

我有一些志愿论文写作，格式如下：

volunteer_names, essay
["emi", "jenne", "john"], [["lets", "protect", "nature"], ["what", "is", "nature"], ["nature", "humans", "earth"]]
["jenne", "li"], [["lets", "manage", "waste"]]
["emi", "li", "jim"], [["python", "is", "cool"]]
...
...
...

我想根据他们的论文写作来识别相似的用户。 我觉得 word2vec 更适合这样的问题。 但是，由于我也想在 model 中嵌入用户名，我不知道该怎么做。 我在互联网上找到的示例仅使用单词（参见示例代码）。

import gensim 
sentences = [['first', 'sentence'], ['second', 'sentence']]
# train word2vec on the two sentences
model = gensim.models.Word2Vec(sentences, min_count=1)

在这种情况下，我想知道 word2vec 中是否有特殊的方法可以做到这一点，或者我可以简单地将用户名视为输入到 model 的单词。 请让我知道您对此的看法。

如果需要，我很乐意提供更多详细信息。

Answer 1

Word2vec 从周围的词中推断词的表示：相似的词经常出现在相似的公司中，最终得到相似的向量。 通常，考虑 5 个字的 window。 因此，如果您想破解 Word2vec，您需要确保学生姓名出现的频率足够高（可能出现在句子的开头和结尾或类似的地方）。

或者，您可以查看 Doc2vec。 在训练期间，每个文档都获得一个 ID 并学习该 ID 的嵌入，它们在查找表中，就好像它们是词嵌入一样。 如果您使用学生姓名作为文档 ID，您将获得学生嵌入。 如果您有来自一个学生的多篇论文，我想您需要稍微破解 Gensim 才能使每篇论文都没有唯一的 ID。

如何在 gensim 中的 word2vec model 中嵌入用户名

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-04-21 07:42:13

如何在 gensim 中的 word2vec model 中嵌入用户名

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-04-21 07:42:13

解决方案1
2 已采纳 2020-04-21 07:42:13