用 word2vec 向量化单词

Question

我有一个标记化和词形还原的文本：

print(text)
['явиться', 'мститель', 'сначала', 'убить', 'любовник', 'выбрать', 'револьвер', 'никто', 'убить', 'воображение', 'рисовать', 'окровавленный', 'труп', 'разместить', 'череп', 'текущий', 'мозг', 'сумятица', 'толпа', 'зевака']

我需要使用 word2vec 对其进行矢量化。

我只看到人们使用句子进行矢量化，然后将它们拆分成标记并进行词形还原，但我的文本最初没有分成句子，我不知道该怎么做。

Answer 1

使用 word2vec，您可以：

在自然使用语境中使用你自己的大型词库来训练你自己的模型，每个词都有向量； 要么
使用其他人的一组涵盖您的语言的经过训练的向量，然后查找每个单词。

你想做什么？

如果你现有的文本数据不是有意义的自然语言写作，它可能不是 (1) 的良好训练数据，所以你想找到并下载别人的预训练向量。

在任何一种情况下，查找单词向量的方式可能会有所不同，具体取决于您使用哪个库加载哪组向量。 它通常类似于任何其他 Python 索引查找，例如vector_model[word] 。

因此，一旦您弄清楚如何创建/加载模型，获取单词的向量就很简单了。

用 word2vec 向量化单词

问题描述

1 个解决方案

解决方案1
0 2022-12-22 02:11:50

用 word2vec 向量化单词

问题描述

1 个解决方案

解决方案1 0 2022-12-22 02:11:50

解决方案1
0 2022-12-22 02:11:50