簡體   English   中英

是否有預訓練的 Gensim 短語模型?

[英]Is there a pretrained Gensim phrase model?

是否有預訓練的Gensim短語模型? 如果沒有,是否可以使用預訓練的詞嵌入進行逆向工程並創建短語模型?

我正在嘗試將GoogleNews-vectors-negative300.bin與 Gensim 的Word2Vec 首先,我需要將我的單詞映射到短語中,以便我可以從 Google 的預訓練嵌入中查找它們的向量。

我搜索了 Gensim 的官方文檔,但找不到任何信息。 謝謝!

我不知道有人分享Phrases模型。 任何這樣的模型都會對預處理/標記化步驟以及創建者使用的特定參數非常敏感。

除了高級算法描述之外,我還沒有看到 Google 對輸入GoogleNews 2013 詞向量的數據所做的標記化/規范化/短語組合的確切選擇已在任何地方記錄。 通過查看存在的標記可以對預處理做出一些猜測,但我不知道有任何代碼可以將類似的選擇應用於其他文本。

您可以嘗試模仿它們的 unigram 標記化,然后推測性地將 unigram 字符串組合成更長的 multigrams,直到某個最大值,檢查這些組合是否存在,如果不存在,則恢復為 unigrams(或存在的最大組合)。 如果天真地完成,這可能會很昂貴,但如果真的很重要,則可以進行優化 - 特別是對於更頻繁的單詞的某些子集 - 因為GoogleNews集似乎遵守GoogleNews頻列出單詞的慣例。

(總的來說,雖然它是一組快速而簡單的詞向量,但我認為GoogleNews有點過分依賴。它會缺少自 2013 年以來發展起來的詞/短語和新含義,並且它確實捕獲的任何含義都是由 2013 年之前幾年的新聞文章決定......這可能與其他領域的主要詞義不匹配。如果您的領域不是專門的新聞,並且您有足夠的數據,請決定您自己的特定領域標記化/組合可能會表現得更好。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM