簡體 English 中英

是否有預訓練的 Gensim 短語模型？

[英]Is there a pretrained Gensim phrase model?

原文 2020-10-15 18:43:57 0 1 python/ machine-learning/ gensim/ word-embedding/ phrase

是否有預訓練的Gensim的短語模型？ 如果沒有，是否可以使用預訓練的詞嵌入進行逆向工程並創建短語模型？

我正在嘗試將GoogleNews-vectors-negative300.bin與 Gensim 的Word2Vec 。 首先，我需要將我的單詞映射到短語中，以便我可以從 Google 的預訓練嵌入中查找它們的向量。

我搜索了 Gensim 的官方文檔，但找不到任何信息。 謝謝！

1 個解決方案

我不知道有人分享Phrases模型。 任何這樣的模型都會對預處理/標記化步驟以及創建者使用的特定參數非常敏感。

除了高級算法描述之外，我還沒有看到 Google 對輸入GoogleNews 2013 詞向量的數據所做的標記化/規范化/短語組合的確切選擇已在任何地方記錄。 通過查看存在的標記可以對預處理做出一些猜測，但我不知道有任何代碼可以將類似的選擇應用於其他文本。

您可以嘗試模仿它們的 unigram 標記化，然后推測性地將 unigram 字符串組合成更長的 multigrams，直到某個最大值，檢查這些組合是否存在，如果不存在，則恢復為 unigrams（或存在的最大組合）。如果天真地完成，這可能會很昂貴，但如果真的很重要，則可以進行優化 - 特別是對於更頻繁的單詞的某些子集 - 因為GoogleNews集似乎遵守GoogleNews頻列出單詞的慣例。

（總的來說，雖然它是一組快速而簡單的詞向量，但我認為GoogleNews有點過分依賴。它會缺少自 2013 年以來發展起來的詞/短語和新含義，並且它確實捕獲的任何含義都是由 2013 年之前幾年的新聞文章決定......這可能與其他領域的主要詞義不匹配。如果您的領域不是專門的新聞，並且您有足夠的數據，請決定您自己的特定領域標記化/組合可能會表現得更好。）

Gensim預訓練模型相似度

[英]Gensim pretrained model similarity

如何將預訓練的fastText向量轉換為gensim模型

[英]How to convert pretrained fastText vectors to gensim model

使用gensim和預訓練的word2vec模型管理KeyError

[英]Manage KeyError with gensim and pretrained word2vec model

Gensim：加載預訓練的doc2vec模型時出錯？

[英]Gensim: error while loading pretrained doc2vec model?

Gensim：如何加載預訓練的doc2vec模型？

[英]Gensim: how to load pretrained doc2vec model?

如何使用預訓練的gensim skipgram模型嵌入？

[英]How can I use a pretrained embedding to gensim skipgram model?

如何更快地將 Word2Vec 預訓練的 model 加載到 Gensim 中？

[英]How can a Word2Vec pretrained model be loaded in Gensim faster?

訓練后如何存儲短語三元組 gensim model

[英]How to store the Phrase trigrams gensim model after training

Gensim Word2Vec 從預訓練模型中選擇次要的詞向量集

[英]Gensim Word2Vec select minor set of word vectors from pretrained model

使用帶有 Gensim 的西班牙預訓練 model 導致引發 KeyError（“單詞'%s'不在詞匯表中”% word）

[英]using a Spanish pretrained model with Gensim causes raise KeyError(“word '%s' not in vocabulary” % word)

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Gensim預訓練模型相似度如何將預訓練的fastText向量轉換為gensim模型使用gensim和預訓練的word2vec模型管理KeyError Gensim：加載預訓練的doc2vec模型時出錯？ Gensim：如何加載預訓練的doc2vec模型？如何使用預訓練的gensim skipgram模型嵌入？如何更快地將 Word2Vec 預訓練的 model 加載到 Gensim 中？訓練后如何存儲短語三元組 gensim model Gensim Word2Vec 從預訓練模型中選擇次要的詞向量集使用帶有 Gensim 的西班牙預訓練 model 導致引發 KeyError（“單詞'%s'不在詞匯表中”% word）

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM