
[英]How can I resolve write errors that I have in my data?
我有一个 dataframe(超过 100 万行),它有一个开放的文本列,供客户编写他们想要的任何内容。 拼写错误的单词经常出现,我正在尝试将语法相同的评论归为一组。 例如: ID 评论 1个我想更改我的信用卡 2个我不想换信用卡 3个我要找零钱我试过使用Levenshtein Distance ...
[英]How can I resolve write errors that I have in my data?
我有一个 dataframe(超过 100 万行),它有一个开放的文本列,供客户编写他们想要的任何内容。 拼写错误的单词经常出现,我正在尝试将语法相同的评论归为一组。 例如: ID 评论 1个我想更改我的信用卡 2个我不想换信用卡 3个我要找零钱我试过使用Levenshtein Distance ...
[英]Early stopping based on BLEU in FairSeq
我的目标是在 FairSeq 中训练翻译 model 时使用 BLEU 作为早停指标。 按照文档,我将以下 arguments 添加到我的训练脚本中: 我收到以下错误: 系统信息: fairseq版本:0.10.2 手电筒:1.10.1+cu113 更多细节: 当我尝试 f.netune M2M1 ...
[英]How to split big compressed text file to small text files
我想将这个语料库hu.txt.xz 15GB解压后变成60GB左右,变成小版本的文本文件,每个文件小于1GB或者100000行 我在本地机器上有这个脚本,但它不起作用,它只是在没有处理的情况下加载,因为我认为大数据: 是否有任何 python 脚本或深度学习工具将它们拆分以用于下一个任务 ...
[英]Text Extraction from real world messy files
我有这样的文本文件,我想从“最终报告”之后的文件中提取数据。 意味着我想删除从我的文本文件到并包括“最终报告”的所有内容。 我试过正则表达式,但找不到方法来做到这一点。 ...
[英]How to calcaulate tf-idf value?
我的计算是: TF(d) = 3/5 IDF(d) = ln(4/3) TF * IDF = 0.17,但不是答案,0 不是正确答案。 问题: 以下问题将询问您有关包含以下文档的语料库。 文档 3 中“d”的 tf-idf 值是多少? 将答案四舍五入到小数点后两位。 取对数时使用自然对数(l ...
[英]Do BERT word embeddings change depending on context?
在回答“是的,当然”之前,让我澄清一下我的意思: 训练完 BERT 后,我想将预训练嵌入用于其他一些 NLP 任务,我是否可以一次性从 BERT 中提取字典中所有单词的所有单词级嵌入,然后拥有一组 static 键-value word-embedding pairs,我从那里检索比方说“bank ...
[英]NLP task of arranging words in the correct order?
是否有最先进的深度学习 model 可以完成按正确顺序排列一堆单词的任务? 例如, 输入:杀死的男孩一定有预期 output :他们一定杀了那个男孩我会很感激一些见解, 谢谢 ...
[英]'BertModel' object has no attribute 'bert' error german bert model
我想复制此 repo https://github.com/theartificialguy/NLP-with-Deep-Learning/blob/master/BERT/Multi-Class%20classification%20TF-BERT/multi_class.ipynb中的工作,但 ...
[英]I am trying to make a multi label text classifier using bert, I am getting the error written below
RuntimeError:张量 a (913) 的大小必须与非单维 1 处的张量 b (512) 的大小匹配 我不明白为什么它不能使用 for 循环工作,但它在单输入时工作正常。 ...
[英]How to change tokenization (huggingface)?
在 NER 任务中,我们希望使用不同的方法(例如 BIO)对句子标记进行分类。 但是当标记器将句子划分得更强时,我们不能加入任何子标记。 我想用自定义标记化对“重量 40.5 像素”句子进行分类(在此示例中按空格)但是在标记化之后 我有 ['[CLS]', 'weight', '40', '.', ...
[英]Do I need to retrain Bert for NER to create new labels?
我对自然语言处理很陌生,我正在考虑从事命名实体识别 NER。 我的一个与 NLP 合作的朋友建议我检查一下 BERT,我照做了。 在阅读文档和检查 CoNLL-2003 数据集时,我注意到唯一的标签是人员、组织、位置、杂项和外部。 如果我希望 model 能够识别日期、时间和其他标签,而不是在外部 ...
[英]Spacy Rule-Based Matching outputs undesired phrase bit
我正在重现一个 Spacy 规则匹配示例: 这应该匹配 但是上面的代码在两种情况下都匹配“I” 我只想从匹配中删除“我” 谢谢 ...
[英]Understanding the difference between W2V and English Words
我试图在作业中回答这个问题你能帮我注意一下 W2V 和英语单词之间的区别吗?我将不胜感激 ...
[英]Which Feature Selection Techniques for NLP is this represent
我有一个来自 NLP 的技术文档数据集我的数据集有60,000条记录数据集中有30,000 个特征该值是单词/特征出现的重复次数这是数据集的样本 有些词在整个数据集中只出现了不到10次该技术是 select 只有出现在数据集中超过一定数量(比如 100)的单词/特征这种技术叫什么? 只使用总出现超过 ...
[英]snscrape error - twitter scrape crashes after a long time giving '215' error
我收到以下错误: https://api.twitter.com/2/search/adaptive.json?include_profile_interstitial_type=1&include_blocking=1&include_blocked_by=1&inclu ...
[英]Encountered a problem while installing [ FastText ] library on MacOS
我一直在尝试在 macOS 上安装“FastText”库,但一直遇到运行时错误。 系统 - MacOS:13.0.1 (22A400) Python 版本:3.10 IDE: Pycharm 我尝试从 Pycharm 安装它,但它没有用,然后我尝试使用终端,这就是我得到的。 pip3 inst ...
[英]Extracting text data from files in different sub-directories raises "ValueError: substring not found"
我试图从不同子目录中的文件中提取文本数据,并将提取的数据放入 pandas 数据帧中。 下面给出了文本数据的示例: “检查:胸部 PA 和 LAT 适应症:病史:F 伴呼吸急促 技术:胸部 PA 和侧位 比较:结果:心脏纵隔和肺门轮廓正常。肺血管正常。肺部清晰。没有胸腔积液或气胸现在。再次看到多 ...
[英]TTS in Colab using Vakyansh Model
我正在使用 Google Colab 为所需的输入文本运行 Vakyansh 的 TTS model。 我已经在我的驱动器上安装了 Vakyansh 的 git 克隆文件夹,并且已经完美地进入了目录。 然而,下面的一段代码,它给了我这个错误: SystemExit: 错误: /src/glow_ ...
[英]Python NLP: Google ngram API
我正在执行 Python NLP 任务,我需要从包含噪音的名词短语列表中删除非技术/非常常见的名词短语。 这是一个例子: 我需要删除"people"和"the best" 。 我想使用 ngram 数据集来做到这一点:“people”和“the best”的频率比任何其他名词短语的频率高得多,因此 ...
[英]AttributeError: 'TokenClassifierOutput' object has no attribute 'detach'
你能帮我解决以下错误吗: 'TokenClassifierOutput' object has no attribute 'detach' 即使修改代码时错误仍然存在 output = model(input_ids, token_type_ids=None, attention_mask=inp ...