繁体   English   中英

是否有预训练的 Gensim 短语模型?

[英]Is there a pretrained Gensim phrase model?

是否有预训练的Gensim短语模型? 如果没有,是否可以使用预训练的词嵌入进行逆向工程并创建短语模型?

我正在尝试将GoogleNews-vectors-negative300.bin与 Gensim 的Word2Vec 首先,我需要将我的单词映射到短语中,以便我可以从 Google 的预训练嵌入中查找它们的向量。

我搜索了 Gensim 的官方文档,但找不到任何信息。 谢谢!

我不知道有人分享Phrases模型。 任何这样的模型都会对预处理/标记化步骤以及创建者使用的特定参数非常敏感。

除了高级算法描述之外,我还没有看到 Google 对输入GoogleNews 2013 词向量的数据所做的标记化/规范化/短语组合的确切选择已在任何地方记录。 通过查看存在的标记可以对预处理做出一些猜测,但我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿它们的 unigram 标记化,然后推测性地将 unigram 字符串组合成更长的 multigrams,直到某个最大值,检查这些组合是否存在,如果不存在,则恢复为 unigrams(或存在的最大组合)。 如果天真地完成,这可能会很昂贵,但如果真的很重要,则可以进行优化 - 特别是对于更频繁的单词的某些子集 - 因为GoogleNews集似乎遵守GoogleNews频列出单词的惯例。

(总的来说,虽然它是一组快速而简单的词向量,但我认为GoogleNews有点过分依赖。它会缺少自 2013 年以来发展起来的词/短语和新含义,并且它确实捕获的任何含义都是由 2013 年之前几年的新闻文章决定......这可能与其他领域的主要词义不匹配。如果您的领域不是专门的新闻,并且您有足够的数据,请决定您自己的特定领域标记化/组合可能会表现得更好。)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM