繁体 English 中英

是否有预训练的 Gensim 短语模型？

[英]Is there a pretrained Gensim phrase model?

原文 2020-10-15 18:43:57 7 1 python/ machine-learning/ gensim/ word-embedding/ phrase

是否有预训练的Gensim的短语模型？ 如果没有，是否可以使用预训练的词嵌入进行逆向工程并创建短语模型？

我正在尝试将GoogleNews-vectors-negative300.bin与 Gensim 的Word2Vec 。 首先，我需要将我的单词映射到短语中，以便我可以从 Google 的预训练嵌入中查找它们的向量。

我搜索了 Gensim 的官方文档，但找不到任何信息。 谢谢！

1 个解决方案

我不知道有人分享Phrases模型。 任何这样的模型都会对预处理/标记化步骤以及创建者使用的特定参数非常敏感。

除了高级算法描述之外，我还没有看到 Google 对输入GoogleNews 2013 词向量的数据所做的标记化/规范化/短语组合的确切选择已在任何地方记录。 通过查看存在的标记可以对预处理做出一些猜测，但我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿它们的 unigram 标记化，然后推测性地将 unigram 字符串组合成更长的 multigrams，直到某个最大值，检查这些组合是否存在，如果不存在，则恢复为 unigrams（或存在的最大组合）。如果天真地完成，这可能会很昂贵，但如果真的很重要，则可以进行优化 - 特别是对于更频繁的单词的某些子集 - 因为GoogleNews集似乎遵守GoogleNews频列出单词的惯例。

（总的来说，虽然它是一组快速而简单的词向量，但我认为GoogleNews有点过分依赖。它会缺少自 2013 年以来发展起来的词/短语和新含义，并且它确实捕获的任何含义都是由 2013 年之前几年的新闻文章决定......这可能与其他领域的主要词义不匹配。如果您的领域不是专门的新闻，并且您有足够的数据，请决定您自己的特定领域标记化/组合可能会表现得更好。）

Gensim预训练模型相似度

[英]Gensim pretrained model similarity

如何将预训练的fastText向量转换为gensim模型

[英]How to convert pretrained fastText vectors to gensim model

使用gensim和预训练的word2vec模型管理KeyError

[英]Manage KeyError with gensim and pretrained word2vec model

Gensim：加载预训练的doc2vec模型时出错？

[英]Gensim: error while loading pretrained doc2vec model?

Gensim：如何加载预训练的doc2vec模型？

[英]Gensim: how to load pretrained doc2vec model?

如何使用预训练的gensim skipgram模型嵌入？

[英]How can I use a pretrained embedding to gensim skipgram model?

如何更快地将 Word2Vec 预训练的 model 加载到 Gensim 中？

[英]How can a Word2Vec pretrained model be loaded in Gensim faster?

训练后如何存储短语三元组 gensim model

[英]How to store the Phrase trigrams gensim model after training

Gensim Word2Vec 从预训练模型中选择次要的词向量集

[英]Gensim Word2Vec select minor set of word vectors from pretrained model

使用带有 Gensim 的西班牙预训练 model 导致引发 KeyError（“单词'%s'不在词汇表中”% word）

[英]using a Spanish pretrained model with Gensim causes raise KeyError(“word '%s' not in vocabulary” % word)

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Gensim预训练模型相似度如何将预训练的fastText向量转换为gensim模型使用gensim和预训练的word2vec模型管理KeyError Gensim：加载预训练的doc2vec模型时出错？ Gensim：如何加载预训练的doc2vec模型？如何使用预训练的gensim skipgram模型嵌入？如何更快地将 Word2Vec 预训练的 model 加载到 Gensim 中？训练后如何存储短语三元组 gensim model Gensim Word2Vec 从预训练模型中选择次要的词向量集使用带有 Gensim 的西班牙预训练 model 导致引发 KeyError（“单词'%s'不在词汇表中”% word）

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM