有没有一种简单的方法可以告诉“解析器”管道不要更改Token.is_sent_start的值? 所以,故事是这样的:我正在处理预先分词的文档(1 行 = 1 句),这个分词就是我所需要的。 我意识到解析器的分割并不总是与我的文档中的相同,所以我不想依赖它所做的分割。 解析器完成后我无法更改分段, ...
有没有一种简单的方法可以告诉“解析器”管道不要更改Token.is_sent_start的值? 所以,故事是这样的:我正在处理预先分词的文档(1 行 = 1 句),这个分词就是我所需要的。 我意识到解析器的分割并不总是与我的文档中的相同,所以我不想依赖它所做的分割。 解析器完成后我无法更改分段, ...
我正在使用 spacy-transformers 和 roBERTa 开发自定义 NER 模型。 我实际上只是为此使用 CLI,并且正在尝试更改我的 Spacy config.cfg 文件以考虑管道中的自定义实体标签。 我是 Spacy 的新手,但我发现人们通常使用 ner.add_label 来 ...
更新到 spaCy 3.0.6 后,我无法加载任何一个经过训练的管道,尽管两者似乎都已正确安装: 使用 spacy.load() 并将管道作为模块导入时会发生这种情况(以下所有行的错误都是相同的): 我得到的错误如下: 从当前稳定版本 1.8.1 恢复到 torch 1.4.0 可以解决问题,但我不 ...
我正在尝试将我的 spacy 版本升级到 nightly,特别是为了使用 spacy 变压器 所以我转换了 spacy 简单的训练数据集,格式如下 td = [["Who is Shaka Khan?", {"entities": [(7, 17, "FRIENDS")]}],["I like Lo ...
我正在尝试将两个图像输入网络,并且我想在这两个图像之间进行相同的转换。 transforms.Compose()一次拍摄一张图像并产生彼此独立的 output 但我想要相同的转换。 我为hflip()进行了自己的编码,现在我有兴趣获得随机裁剪。 有没有办法在不编写自定义函数的情况下做到这一点? ...
我是编码新手,可以使用指导来了解为什么它会像现在这样奇怪地打印。 虽然这与 NLP 有关,但我相信这个错误很可能是由比我有更多编码知识的人解释的。 我希望这是提出这个问题的正确地方。 感谢您的帮助! OUTPUT: [4] ...
我想用句子做一些有监督的二元分类任务,并且一直在使用 spaCy,因为它易于使用。 我使用 spaCy 将文本转换为向量,然后将向量输入机器学习 model(例如 XGBoost)来执行分类。 然而,结果并不是很令人满意。 在 spaCy 中,很容易加载model (例如 BERT / Robert ...
我正在尝试让 pytorch model 在句子分类任务上运行。 在处理医学笔记时,我正在使用 ClinicalBert ( https://github.com/kexinhuang12345/clinicalBERT ) 并希望使用其预先训练的权重。 不幸的是,ClinicalBert mod ...
我一直在使用 huggingface 对蒙面令牌进行预测,效果很好。 我注意到,对于每个预测,它都会给出一个“分数”,并且希望为一些它没有预测但我提供的标记给出“分数”。 例如,如果我的句子是"I ate bacon and <mask> for breakfast"我可以使用pipe ...
所以,我是 NLP 的新手,我正在尝试使用 spacy_transformers 训练文本分类器。 此代码已被证明可以运行,但它在我的计算机上引发错误。 作为旁注,它可能是由我在 cpu 上运行的脂肪引起的吗? 然后当我传递函数时 我收到以下错误 ...
我想要一个回归输出而不是分类。 例如:我想要一个从 0 到 1 的浮点输出值,而不是 n 个类。 这是包 github 页面中的简约示例: import spacy from spacy.util import minibatch import random imp ...
我正在尝试访问 spaCy BERT 字典,但我从模型中收到奇怪的输出。 例如对于en_core_web_lg模型,我可以像这样提取大约 130 万个令牌 当我对en_trf_bertbaseuncased_lg模型做同样的en_trf_bertbaseuncased_lg我只得到 478 个令 ...
我在colab GPU 笔记本中加载Spacy模块时colab问题。 此命令适用于anaconda notebook 下载,但如何在 Google Colab下载并加载模块? ...
我正在尝试使用 pytorch 使用预训练模型(BERT)训练模型。 预训练的模型权重仍然不被接受。 我看到这个错误: 这是完整的回溯: 任何帮助都会很棒。 提前致谢 ...
我目前正在使用spacy-pytorch-transformer package 来试验各自的嵌入。 在阅读介绍性文章(基本上是 GitHub README)时,我的理解是令牌级别的嵌入是所有相应词块嵌入的平均值,即embed(complex)将与1/2 * embed(comp#) * embed ...
嗨,我正在使用新的 SpaCy 模型en_pytt_bertbaseuncased_lg实现多分类模型(5 个类)。 新管道的代码在这里: 训练代码如下,基于这里的示例( https://pypi.org/project/spacy-pytorch-transformers/ ): 所以我的 ...