标签[nlp]

自然语言处理(NLP)是人工智能的一个子领域,涉及从自然语言数据中转换或提取有用的信息。 方法包括机器学习和基于规则的方法。

0
0回复
10

如何让用户将文件夹上传到使用tkinker制作的界面,以及如何操作这些文件?

我需要创建一个界面,用户应该能够将文件夹上传到使用 tkinker 制作的界面,并且文件夹中的文件必须进行标记化,并且输出应该是可下载的 excel 文件。 我怎样才能做到这一点?
0
0回复
04

在进行文本分类时,训练和测试文本在被标记化后需要具有相同的形状

我正在重新审视我使用路透社数据集所做的一个项目,虽然我的模型有一些轻微的过度拟合,但训练准确度为 99,验证为 96 左右。当我在测试数据上评估模型时,我的准确度约为 27%。 所以我想知道这是不是因为训练和测试数据的形状不同。 回来 (5485, 10000) (2189, 10000)
0
0回复
08

如何在自定义数据上微调Allennlp的RoBERTa文本蕴涵模型?

我正在做一个项目,我需要微调AllenNLP提供的对分类 roberta-snli模型。 我已经准备了 snli 格式的自定义数据集,但无法找到重新训练模型的方法。 目前,我正在遵循这种方法来训练用于文本蕴涵的 bert-base 模型。 但是如何微调 AllenNLP 的 pair-classif
0
0回复
14

仅计算一个主题的连贯性

提供来自主题模型的主题,我想计算每个主题的连贯性分数,而不是一次计算一组主题。 我有以下代码: 最初,我有以下变量: topics字符串列表的列表。 data字符串列表的列表。 但是,这给出了错误: Coherencemodel 需要一个带有字符串的列表列表。 由于topic是一个带有字符
1
2回复
40

Python中的正则表达式来检测省略号

我有一个大型文本语料库,我想对其进行一点处理,然后基于它训练 Word2Vec 模型。 在某些情况下,由于省略号而删除单词,例如: 但是看到他们给七八岁的孩子演奏是很美的或者 这个国家处于独立前和独立后的内战的喧嚣中,但这里的气氛往往是欢乐的现在我想撤消这些删除(分别是启发和第二个)。 这是我写的
0
0回复
05

NLP、TfIdf输出到CNN

我正在使用 TfIdf 进行 twitter 文本分析,我想将 TfIdfVectorizer 的输出输入到 CNN 中。 然而,我没有得到好的结果。 我将在这里提供我的代码: 和 CNN 代码: 我得到了糟糕的训练(验证)结果以及测试结果。 你知道我在这里做错了什么吗? 关于这个问题的更多信息:我
-1
0回复
24

将多行地址拆分为单独的列

我有很多这样的地址: 我使用 Camelot 从 pdf 文档中提取它们。 Camelot 的输出是: 我想用 python 将它们每个转换为单独的一行: 关于如何将 Camelot 的输出转换为该格式的任何想法? 谢谢!
0
0回复
14

NLTKWordNetLemmatizer为特定单词返回的(?)引理不正确

我正在阅读这篇文章并在我自己的数据上进行实验,我发现文章中给出的两个例子和我的一个词都没有按照描述的那样工作。 您可以参考这篇文章以获取更多信息,尽管这里的问题可以解决一切问题。 此 lemmatizer 的默认 pos 标签只是wordnet.NOUN因此提供 pos 标签与否不会有什么不同。 仅
0
0回复
05

ValueError:层模型需要1个输入,但它收到3个输入张量。收到的输入:[

我正在尝试创建一个用于文本分析的 cnn 模型。 但是,当我定义模型时,出现以下错误 由于我的输入层是一个 numpy 数组,因此我尝试更改大小,但这也不起作用。 代码: 模型: 拟合模型 有没有人知道我可以尝试什么或知道我在哪里搞砸了?
0
1回复
23

Python将大文本翻译成英文

我正在寻找一个将非常大的文本翻译成英语的 Python 库。 我已经使用过TextBlob (在某些时候它只是停止翻译,我想是 API 限制)、 googletrans (它在某些时候也只是停止翻译,它也不会翻译非常大的文本,我必须将它们分成几部分然后合并)。 我正在寻找一种解决方案,我可以确定它不
-2
0回复
09

PythonNLP产品分类器

Python NLP 产品分类器,将订单分组为产品或服务。 订单可以是“iPhone 8”(产品)或“IT 咨询”(服务)。 我有一个包含订单描述列的数据框,在查看描述时,我必须将订单分类为产品或服务。 我在这里附上了一张 datafreme 的图片。 这种分类的最佳方法是什么? 现在,我正在尝试
0
0回复
10

尝试分析文本和情绪

我正在尝试分析文本和情感数据,但我不想进行广泛的分析。 我只想要好的、中性和坏的基本分布,以及每个类别的百分比。 任何人都可以指导我一些建议或建议吗? 谢谢你们!!
-2
0回复
21

匹配看起来像真实单词的字符串

假设我有大量字符串。 它可以包含任何内容 - 但我只需要提取看起来像真正英语单词的字符串。 我可以做适当的预处理,如: 我可以将它们拆分为空格、连字符等。 我可以删除标点符号、数字等。 我可以排除太短或太长的字符串(假设所需长度在 5 到 25 之间是安全的) 我可以统一大小写(假设都是小写
-2
0回复
21

地址标准化[关闭]

关闭。 此问题不符合Stack Overflow 准则。 它目前不接受答案。 想改善这个问题吗? 更新问题
0
0回复
10

多任务NLPDistilbert

我正在寻找一种技术解决方案,如附图所示。 我想在实现中使用 Tensorflow。 我想知道实现这种解决方案的教程、资源或代码,或者我可以修改的类似内容。 提前致谢,最好的塞尔吉奥
0
1回复
26

使用spacy通过令牌ID提取张量

我正在使用 spacy 3.0 使用转换器模型对文本进行矢量化。 由于数据隐私的原因,矢量化必须在与训练模型的机器不同的机器上。 为了减少我生成的数据量以及必须在机器之间传输的数据量,我像这样提取文本的令牌 ID: 返回 现在有了 id,是否可以使用 spacy 从语言模型( de_dep_news
2
2回复
41

如何将torch.Tensor替换为python中的值

我在 pytorch 中的预测是torch([0]) , torch([1])....,torch([25])分别对应 26 个字母,即A,B,C....Z 。 我的预测以我想要的火炬([0])的形式出现,依此类推。 知道如何进行这种转换。
0
0回复
11

输入TfIdf输出到CNN

我使用 CNN 模型来解决从 Twitter 文本中预测 5 个值的 NLP 问题。 该模型目前使用 Keras 嵌入层从文本创建向量。 我使用的另一种方法是 TfIdfVectorizer,应用 PCA 来减少输出的形状,并将其传递给具有 Dense 层的常规 Keras 模型。 我的想法是移除
1
0回复
13

条件频率分布

你好 :) 我对 Python 和 NLP 真的很陌生,现在正在尝试阅读 O'Reilly 的 NLTK 书。 我目前对有关使用条件频率分布进行绘图和制表的任务陷入僵局。 任务如下:“找出一周中的哪些日子最有新闻价值,哪些日子最浪漫。定义一个名为 days 的变量,其中包含一周中的天数列表,即 ['
0
1回复
28

是否有任何模型可以在Python中获取每个客户评论的上下文?

我有客户写的 2 万条评论的数据。 我想使用 Python 检索或拉取每个客户评论的上下文。 例子: “这件衬衫尺码对我来说太小了”。 在这句话中,他谈论的是产品尺寸,因此上下文应该类似于“产品尺寸”。 “价格太高了,我可以在亚马逊以更低的价格买到这个产品。”。 在这句话中,他谈论的是产品价

1 2 3 4 5 6 7 8 9 10 下一页