[英]Is there a pretrained Gensim phrase model?
是否有预训练的Gensim
的短语模型? 如果没有,是否可以使用预训练的词嵌入进行逆向工程并创建短语模型?
我正在尝试将GoogleNews-vectors-negative300.bin与 Gensim 的Word2Vec
。 首先,我需要将我的单词映射到短语中,以便我可以从 Google 的预训练嵌入中查找它们的向量。
我搜索了 Gensim 的官方文档,但找不到任何信息。 谢谢!
我不知道有人分享Phrases
模型。 任何这样的模型都会对预处理/标记化步骤以及创建者使用的特定参数非常敏感。
除了高级算法描述之外,我还没有看到 Google 对输入GoogleNews
2013 词向量的数据所做的标记化/规范化/短语组合的确切选择已在任何地方记录。 通过查看存在的标记可以对预处理做出一些猜测,但我不知道有任何代码可以将类似的选择应用于其他文本。
您可以尝试模仿它们的 unigram 标记化,然后推测性地将 unigram 字符串组合成更长的 multigrams,直到某个最大值,检查这些组合是否存在,如果不存在,则恢复为 unigrams(或存在的最大组合)。 如果天真地完成,这可能会很昂贵,但如果真的很重要,则可以进行优化 - 特别是对于更频繁的单词的某些子集 - 因为GoogleNews
集似乎遵守GoogleNews
频列出单词的惯例。
(总的来说,虽然它是一组快速而简单的词向量,但我认为GoogleNews
有点过分依赖。它会缺少自 2013 年以来发展起来的词/短语和新含义,并且它确实捕获的任何含义都是由 2013 年之前几年的新闻文章决定......这可能与其他领域的主要词义不匹配。如果您的领域不是专门的新闻,并且您有足够的数据,请决定您自己的特定领域标记化/组合可能会表现得更好。)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.