[英]Gensim's Doc2Vec - How to use pre-trained word2vec (word similarities)
[英]How to load pre-trained model with in gensim and train doc2vec with it?
我准備好了我已經訓練過的 word2vec 模型。 我已將其序列化為 CSV 文件:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
我想知道的是如何在gensim
加載該詞向量模型並使用它來訓練段落或 doc2vec 模型。
這個Doc2Vec 教程說我可以以“ #C # C text format
”的形式加載模型,但我不知道這實際上意味着什么。 什么是“C 文本格式”,但更重要的是:
如何從我的 word2vec 模型構建詞匯表?
Doc2Vec 不需要詞向量作為輸入:它將創建在其自身訓練期間需要的任何詞向量。 (還有一些模式,比如純 DBOW—— dm=0, dbow_words=0
根本不使用或訓練詞向量。)
用詞向量播種 Doc2Vec 模型可能會有所幫助或有害; 沒有太多理論或已發表的結果可以提供指導。 Word2Vec 有一種實驗方法intersect_word2vec_format()
,可以將 word2vec-c-format 向量合並到具有現有詞匯表的模型中,但您需要查看源代碼才能真正理解其假設:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.