簡體   English   中英

選擇分詞器的詞匯量

[英]Choose vocabulary size of tokenizer

我有一個數據集,其中包含大約 150,000 個用於機器翻譯任務的句子對。 我必須從源語言和目標語言的數據集構建一個標記器。

我應該為分詞器選擇詞匯量嗎? 謝謝

最佳詞匯量取決於數據集大小和語言。 機器翻譯比賽中最常見的詞匯量是 32k(參見博客文章)。 經驗法則說,數據集越小,您應該使用的子詞詞匯就越小。 對於 150k 的句子,8k 可能是一個不錯的選擇。 您還可以從本文的表 3 中了解詞匯量如何影響翻譯質量。

並非總是詞匯量越大,質量就越高。 詞匯表中的稀有標記很少更新,因此它們的嵌入可能與網絡的 rest 不同步。 因此,對於較小的數據集,較小的詞匯量可能會更好。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM