繁体   English   中英

用 word2vec 向量化单词

[英]Vectorize words with word2vec

我有一个标记化和词形还原的文本:

print(text)
['явиться', 'мститель', 'сначала', 'убить', 'любовник', 'выбрать', 'револьвер', 'никто', 'убить', 'воображение', 'рисовать', 'окровавленный', 'труп', 'разместить', 'череп', 'текущий', 'мозг', 'сумятица', 'толпа', 'зевака']

我需要使用 word2vec 对其进行矢量化。

我只看到人们使用句子进行矢量化,然后将它们拆分成标记并进行词形还原,但我的文本最初没有分成句子,我不知道该怎么做。

使用 word2vec,您可以:

  1. 在自然使用语境中使用你自己的大型词库来训练你自己的模型,每个词都有向量; 要么
  2. 使用其他人的一组涵盖您的语言的经过训练的向量,然后查找每个单词。

你想做什么?

如果你现有的文本数据不是有意义的自然语言写作,它可能不是 (1) 的良好训练数据,所以你想找到并下载别人的预训练向量。

在任何一种情况下,查找单词向量的方式可能会有所不同,具体取决于您使用哪个库加载哪组向量。 它通常类似于任何其他 Python 索引查找,例如vector_model[word]

因此,一旦您弄清楚如何创建/加载模型,获取单词的向量就很简单了。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM