繁体   English   中英

了解 gpt-2 如何标记字符串

[英]Understanding how gpt-2 tokenizes the strings

在这里使用教程,我编写了以下代码:

from transformers import GPT2Tokenizer, GPT2Model
import torch

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

所以我意识到“输入”由我句子的标记化项目组成。 但是我怎样才能得到标记化项目的值呢? (参见例如 ["hello", ",", "my", "dog", "is", "cute"])

我问这个是因为有时我认为如果该词不在其字典中(即,来自另一种语言的词),它会分隔一个词。 所以我想在我的代码中检查一下。

您可以在标记器的 output 上调用tokenizer.decode以从给定索引下的词汇表中获取单词:

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> list(map(tokenizer.decode, inputs.input_ids[0]))
['Hello', ',', ' my', ' dog', ' is', ' cute']

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM