簡體   English   中英

Word2Vec:使用 Gensim 上傳預訓練的 word2vec 文件時收到錯誤

[英]Word2Vec: Error received at uploading a pre-trained word2vec file using Gensim

嘗試使用 Gensim 上傳預訓練的 word2vec 文件(使用 fasttext 編譯)時收到錯誤消息。 文件具有“.vec”擴展名,可以在這里找到:http: //89.38.230.23/word_embeddings/we/corola.300.20.vec.zip

到目前為止我嘗試過的:選項 1:來自 gensim.models 的 KeyedVectors 選項 2:FastText 包裝器

#Option 1
    from gensim.models import KeyedVectors
    model = KeyedVectors.load_word2vec_format('Word_embeddings/corola.300.20.vec', binary=True)
######

#Option 2
    from gensim.models.wrappers import FastText
    model = FastText.load_word2vec_format('Word_embeddings/corola.300.20.vec')

錯誤選項 1:UnicodeDecodeError:'utf-8' 編解碼器無法解碼位置 0 中的字節 0x9b:起始字節無效

棄用錯誤選項 2:棄用警告:已棄用。 使用 gensim.models.KeyedVectors.load_word2vec_format 代替。

我需要正確的方法來使用 gensim 成功上傳 word2vec 文件。

謝謝你。

有時,使用unicode_errors='ignore'參數就可以了,因為詞嵌入文件中可能存在錯誤。 你試一試:

model = KeyedVectors.load_word2vec_format('Word_embeddings/corola.300.20.vec', binary=True, unicode_errors='ignore')

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM