簡體 English 中英

Python：Spacy NER 和 memory 消耗

[英]Python: Spacy NER and memory consumption

原文 2020-05-01 11:19:34 5 1 python/ memory/ spacy/ ner

我使用 SPACY 進行命名實體識別。 我在 en_core_web_md 上有自己訓練有素的 model。 我的 model 的大小是 223 兆字節。 當 model 加載到 memory 時，它使用 800 兆字節。 是否有可能出於 NER 目的不加載所有內容（lexemes.bin、string.json、key2row），而僅加載向量和 model（分別重 4 和 24 兆字節）來消耗更少的 ZCD69B4957F06CD819D7？ 或者是否都需要為 NER 加載？

1 個解決方案

對於 spacy v2.2，有必要加載所有內容。 有一個小錯誤會影響md模型中的key2row ：要改進v2.2.0-v2.2.5版本的md模型中key2row的大小和加載時間，請參閱https://stackoverflow.com/a/60541041/461847 。

如果您使用自己的自定義向量從頭開始訓練 model，則與 key2row 相關的錯誤已在key2row中修復，但提供的 v2.2 md模型仍然存在此問題。

計划用於 v2.3：刪除lexemes.bin ，僅按需創建詞位。 通過這些更改， md模型在磁盤上將縮小約 50%，初始 model 加載速度提高約 50%。 最初加載時，英文md model 看起來在 memory 中小了大約 300MB，但是 memory 在構建 lexe 緩存時使用會增加一點。 見： https://github.com/explosion/spaCy/pull/5238