差異 spacy 的“--base-model”和“--vectors”arguments 用於 NER 的自定義嵌入？

Question

我訓練了 fasttext 嵌入並將它們保存為.vec文件。 我想將這些用於我的 spacy NER model。 有沒有區別

python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --base-model embeddings.vec

和

python -m spacy train en [new_model] [train_data] [dev_data] --pipeline ner --vectors embeddings.vec ?

兩種方法產生幾乎相同的訓練損失、F 分數等。

Answer 1

如果您需要使用向量初始化 spacy model，請使用spacy init-model像這樣，其中lg是語言代碼：

spacy init-model lg model_dir -v embeddings.vec -vn my_custom_vectors

將向量保存為 spacy model 的一部分后：

--vectors從提供的 model 加載向量，所以初始 model 是spacy.blank("lg") + 向量
--base-model從提供的 model 加載所有內容（標記器、管道組件、向量），因此初始 model 是spacy.load(model)

如果提供的 model 中沒有任何管道組件，唯一的潛在區別是由spacy.blank("lg")產生的標記器設置，這在各個 spacy 版本之間可能會有所不同。