cost 218 ms
如何解决数据中的写入错误?

[英]How can I resolve write errors that I have in my data?

我有一个 dataframe(超过 100 万行),它有一个开放的文本列,供客户编写他们想要的任何内容。 拼写错误的单词经常出现,我正在尝试将语法相同的评论归为一组。 例如: ID 评论 1个我想更改我的信用卡 2个我不想换信用卡 3个我要找零钱我试过使用Levenshtein Distance ...

FairSeq 中基于 BLEU 的提前停止

[英]Early stopping based on BLEU in FairSeq

我的目标是在 FairSeq 中训练翻译 model 时使用 BLEU 作为早停指标。 按照文档,我将以下 arguments 添加到我的训练脚本中: 我收到以下错误: 系统信息: fairseq版本:0.10.2 手电筒:1.10.1+cu113 更多细节: 当我尝试 f.netune M2M1 ...

如何将大压缩文本文件拆分为小文本文件

[英]How to split big compressed text file to small text files

我想将这个语料库hu.txt.xz 15GB解压后变成60GB左右,变成小版本的文本文件,每个文件小于1GB或者100000行 我在本地机器上有这个脚本,但它不起作用,它只是在没有处理的情况下加载,因为我认为大数据: 是否有任何 python 脚本或深度学习工具将它们拆分以用于下一个任务 ...

从现实世界的杂乱文件中提取文本

[英]Text Extraction from real world messy files

我有这样的文本文件,我想从“最终报告”之后的文件中提取数据。 意味着我想删除从我的文本文件到并包括“最终报告”的所有内容。 我试过正则表达式,但找不到方法来做到这一点。 ...

如何计算tf-idf值?

[英]How to calcaulate tf-idf value?

我的计算是: TF(d) = 3/5 IDF(d) = ln(4/3) TF * IDF = 0.17,但不是答案,0 不是正确答案。 问题: 以下问题将询问您有关包含以下文档的语料库。 文档 3 中“d”的 tf-idf 值是多少? 将答案四舍五入到小数点后两位。 取对数时使用自然对数(l ...

2023-01-04 14:35:01   1   17    nlp / tf-idf  
BERT 词嵌入会根据上下文变化吗?

[英]Do BERT word embeddings change depending on context?

在回答“是的,当然”之前,让我澄清一下我的意思: 训练完 BERT 后,我想将预训练嵌入用于其他一些 NLP 任务,我是否可以一次性从 BERT 中提取字典中所有单词的所有单词级嵌入,然后拥有一组 static 键-value word-embedding pairs,我从那里检索比方说“bank ...

我正在尝试使用 bert 制作一个多 label 文本分类器,我收到下面写的错误

[英]I am trying to make a multi label text classifier using bert, I am getting the error written below

RuntimeError:张量 a (913) 的大小必须与非单维 1 处的张量 b (512) 的大小匹配 我不明白为什么它不能使用 for 循环工作,但它在单输入时工作正常。 ...

如何更改标记化(huggingface)?

[英]How to change tokenization (huggingface)?

在 NER 任务中,我们希望使用不同的方法(例如 BIO)对句子标记进行分类。 但是当标记器将句子划分得更强时,我们不能加入任何子标记。 我想用自定义标记化对“重量 40.5 像素”句子进行分类(在此示例中按空格)但是在标记化之后 我有 ['[CLS]', 'weight', '40', '.', ...

我是否需要为 NER 重新训练 Bert 以创建新标签?

[英]Do I need to retrain Bert for NER to create new labels?

我对自然语言处理很陌生,我正在考虑从事命名实体识别 NER。 我的一个与 NLP 合作的朋友建议我检查一下 BERT,我照做了。 在阅读文档和检查 CoNLL-2003 数据集时,我注意到唯一的标签是人员、组织、位置、杂项和外部。 如果我希望 model 能够识别日期、时间和其他标签,而不是在外部 ...

NLP 这代表了哪些特征选择技术

[英]Which Feature Selection Techniques for NLP is this represent

我有一个来自 NLP 的技术文档数据集我的数据集有60,000条记录数据集中有30,000 个特征该值是单词/特征出现的重复次数这是数据集的样本 有些词在整个数据集中只出现了不到10次该技术是 select 只有出现在数据集中超过一定数量(比如 100)的单词/特征这种技术叫什么? 只使用总出现超过 ...

在 MacOS 上安装 [FastText] 库时遇到问题

[英]Encountered a problem while installing [ FastText ] library on MacOS

我一直在尝试在 macOS 上安装“FastText”库,但一直遇到运行时错误。 系统 - MacOS:13.0.1 (22A400) Python 版本:3.10 IDE: Pycharm 我尝试从 Pycharm 安装它,但它没有用,然后我尝试使用终端,这就是我得到的。 pip3 inst ...

2022-12-31 10:05:51   1   23    nlp / fasttext  
从不同子目录中的文件中提取文本数据引发“ValueError: substring not found”

[英]Extracting text data from files in different sub-directories raises "ValueError: substring not found"

我试图从不同子目录中的文件中提取文本数据,并将提取的数据放入 pandas 数据帧中。 下面给出了文本数据的示例: “检查:胸部 PA 和 LAT 适应症:病史:F 伴呼吸急促 技术:胸部 PA 和侧位 比较:结果:心脏纵隔和肺门轮廓正常。肺血管正常。肺部清晰。没有胸腔积液或气胸现在。再次看到多 ...

Colab 中的 TTS 使用 Vakyansh Model

[英]TTS in Colab using Vakyansh Model

我正在使用 Google Colab 为所需的输入文本运行 Vakyansh 的 TTS model。 我已经在我的驱动器上安装了 Vakyansh 的 git 克隆文件夹,并且已经完美地进入了目录。 然而,下面的一段代码,它给了我这个错误: SystemExit: 错误: /src/glow_ ...

Python NLP:谷歌 ngram API

[英]Python NLP: Google ngram API

我正在执行 Python NLP 任务,我需要从包含噪音的名词短语列表中删除非技术/非常常见的名词短语。 这是一个例子: 我需要删除"people"和"the best" 。 我想使用 ngram 数据集来做到这一点:“people”和“the best”的频率比任何其他名词短语的频率高得多,因此 ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM