繁体   English   中英

GPT-2 的“提示”可以输入多少个字符

[英]How many characters can be input into the “prompt” for GPT-2

我正在使用 github 的 OpenAI GPT-2 model

我认为 top_k 参数决定了采样的令牌数量。 这也是指示可以给出多大提示的参数吗?

如果top_k = 40,提示可以有多大?

GPT-2 不适用于字符级别,但适用于子词级别。 训练的文本段的最大长度为 1,024 个子词。

它使用基于byte-pair-encoding的词汇表。 在这样的编码下,频繁的词保持不变,不频繁的词被分成几个单元,最终下降到字节级别。 在实践中,分割看起来像这样(69 个字符,17 个子词):

Hello , ▁Stack Over flow ! ▁This ▁is ▁an ▁example ▁how _a ▁string ▁gets ▁segment ed .

在训练时,提示和答案没有区别,所以唯一的限制是提示和答案的总和不能超过 1024 个子词。 理论上,您可以继续生成超出此范围,但 model 认为的历史永远不会更长。

top_k的选择仅影响 memory 要求。 长查询还需要更多 memory,但这可能不是主要限制

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM