簡體 English 中英

選擇分詞器的詞匯量

[英]Choose vocabulary size of tokenizer

原文 2022-08-04 07:03:35 7 1 machine-translation

我有一個數據集，其中包含大約 150,000 個用於機器翻譯任務的句子對。 我必須從源語言和目標語言的數據集構建一個標記器。

我應該為分詞器選擇詞匯量嗎？ 謝謝

最佳詞匯量取決於數據集大小和語言。 機器翻譯比賽中最常見的詞匯量是 32k（參見博客文章）。 經驗法則說，數據集越小，您應該使用的子詞詞匯就越小。 對於 150k 的句子，8k 可能是一個不錯的選擇。 您還可以從本文的表 3 中了解詞匯量如何影響翻譯質量。

並非總是詞匯量越大，質量就越高。 詞匯表中的稀有標記很少更新，因此它們的嵌入可能與網絡的 rest 不同步。 因此，對於較小的數據集，較小的詞匯量可能會更好。

[英]Is there a limit to the size of target word vocabulary that should be used in seq2seq models?

[英]Vocabulary scale of machine translation

[英]Tokenizer in moses-SMT system stuck even with 10 sentences

[英]Do huggingface translation models support separate vocabulary for source and target?

[英]What's the point to have a UNK token for out of vocabulary words during decoding?

[英]Hidden size vs input size in RNN

[英]model size too big with my attention model implementation?

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 應該在 seq2seq 模型中使用的目標詞詞匯量是否有限制？機器翻譯詞匯量表 moses-SMT 系統中的分詞器即使有 10 個句子也卡住了 huggingface 翻譯模型是否支持源和目標的單獨詞匯表？在解碼過程中為詞匯表外的單詞使用 UNK 標記有什么意義？ RNN 中的隱藏大小與輸入大小模型尺寸太大，我的注意力模型實現如何？

相關標簽