繁体 English 中英

了解 gpt-2 如何标记字符串

[英]Understanding how gpt-2 tokenizes the strings

原文 2021-04-28 11:38:49 3 1 python/ huggingface-transformers/ transformer/ gpt-2

在这里使用教程，我编写了以下代码：

from transformers import GPT2Tokenizer, GPT2Model
import torch

tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2Model.from_pretrained('gpt2')

inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state

所以我意识到“输入”由我句子的标记化项目组成。 但是我怎样才能得到标记化项目的值呢？ （参见例如 ["hello", ",", "my", "dog", "is", "cute"]）

我问这个是因为有时我认为如果该词不在其字典中（即，来自另一种语言的词），它会分隔一个词。 所以我想在我的代码中检查一下。

1 个解决方案

您可以在标记器的 output 上调用tokenizer.decode以从给定索引下的词汇表中获取单词：

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> list(map(tokenizer.decode, inputs.input_ids[0]))
['Hello', ',', ' my', ' dog', ' is', ' cute']

如何摆脱 GPT-2 警告消息？

[英]How to Get Rid of GPT-2 Warning Message?

如何使用 HuggingFace Transformers GPT-2 的过去？

[英]How to use the past with HuggingFace Transformers GPT-2?

gpt-2 不能与 python 一起使用吗？

[英]Is gpt-2 unusable with python?

GPT-2 的“提示”可以输入多少个字符

[英]How many characters can be input into the “prompt” for GPT-2

如何从 gpt-2 获取 logit 值作为概率？

[英]how can I get the logit values as probabilities from gpt-2?

如何使用 GPT-2 找到一个句子的概率？

[英]How can I find the probability of a sentence using GPT-2?

如何更改 gpt-2 代码以使用 Tensorflow 2.0？

[英]How to alter gpt-2 code to work with Tensorflow 2.0?

设置迭代次数 gpt-2

[英]Set the number of iterations gpt-2

在本地机器上训练 GPT-2，加载数据集

[英]Train GPT-2 on local machine, load dataset

Tensorflow 未在 GPT-2 程序中充分利用 GPU

[英]Tensorflow not fully utilizing GPU in GPT-2 program

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何摆脱 GPT-2 警告消息？如何使用 HuggingFace Transformers GPT-2 的过去？ gpt-2 不能与 python 一起使用吗？ GPT-2 的“提示”可以输入多少个字符如何从 gpt-2 获取 logit 值作为概率？如何使用 GPT-2 找到一个句子的概率？如何更改 gpt-2 代码以使用 Tensorflow 2.0？设置迭代次数 gpt-2 在本地机器上训练 GPT-2，加载数据集 Tensorflow 未在 GPT-2 程序中充分利用 GPU

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM