![](/img/trans.png)
[英]Is there a limit to the size of target word vocabulary that should be used in seq2seq models?
[英]Choose vocabulary size of tokenizer
我有一個數據集,其中包含大約 150,000 個用於機器翻譯任務的句子對。 我必須從源語言和目標語言的數據集構建一個標記器。
我應該為分詞器選擇詞匯量嗎? 謝謝
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.