
[英]Cosine similarity of two columns in a DataFrame
我有一个 dataframe 有 2 列,我想得到每对句子的余弦相似度分数。 Dataframe (df) 我尝试过的一些代码片段是: 上面的代码不起作用,我仍在尝试不同的方法,但与此同时,我将不胜感激任何指导,在此先感谢您! 所需的 output: ...
[英]Cosine similarity of two columns in a DataFrame
我有一个 dataframe 有 2 列,我想得到每对句子的余弦相似度分数。 Dataframe (df) 我尝试过的一些代码片段是: 上面的代码不起作用,我仍在尝试不同的方法,但与此同时,我将不胜感激任何指导,在此先感谢您! 所需的 output: ...
[英]How do I plot a FreqDist of a column in my DataFrame?
我一直在尝试编写一个 FreqDist 来分析我预处理过的文本数据(删除停用词、标记化等),以了解文本数据的主要内容。 我的第一个问题是,我的方法是否正确? 我的第二个问题是我试过 plot 一个 FreqDist plot 但它返回了一个错误unhashable type: 'list' 我的代 ...
[英]Convert Prodigy JSONL / Spacy Doc format to CONLL
我已经搜索了一段时间,但没有找到解决我问题的方法。 对于关系分类任务,我已经使用 prodigy 注释软件注释了几条新闻,例如文本文档。 Prodigy 在 JSONL 文件中输出格式,可以将其转换为 .spacy 文件。 在 JSONL 格式中,每一行代表一篇带有注释的新闻文章。 现在我想将我 ...
[英]How to print outputs of a pretrained huggingface model?
我正在尝试根据预训练的 huggingface model 进行分类。如何打印 output(带标签的分类)? 答案应该是“敌人”有 label“1”,但如果我打印 output,答案是: 我错过了什么? ...
[英]How to replace multiple strings in a class list in python?
我有一个包含数百条推文的推文列表。 我想通过遍历推文将推文列表中的非标准词替换为标准的等价词。 我用这段代码来读取包含标准词的文件 然后我使用这段代码打印不在列表中的单词 但它仅限于打印前五个字符串,我正在寻找一种方法来打印所有字符串而没有限制(灵活到每个推文中的字符串数量)。 谢谢您的帮助:) ...
[英]Spacy Extracting mentions with Matcher
我正在尝试使用 Spacy 规则匹配器将一个句子匹配成一个更大的句子,但是 output 是空的。 该规则的想法是匹配“ CafeA 非常慷慨的部分。 ”位,但我没有得到任何结果。 在 spacy 中执行此操作的正确方法是什么? 任何帮助将不胜感激 ...
[英]Upload text document in R
我正在尝试将多个文本文档上传到 R 中的数据框中。我想要的 output 是一个包含两列的矩阵: 文档内容文件A 这是内容。 :---- :-------: 文件B 这是内容。 :---- :-------: 文档 C 这是内容。 在“内容”栏中,应显示文本文档(10-K 报告)中的所有文本 ...
[英]NLP and Pandas data extraction
发现印象文件名_位置肺底:无肺结节或肺炎证据目前的 CT 没有发现可以解释患者的腹痛临床主诉。 /home/text_file/p123456.txt 我有一个 pandas dataframe 有 3 列(来自胸部 X 光报告)列是“发现”、“印象”和“文件名”以及目录信息。 我有单独的胸部 X ...
[英]NLP and CV Text Processing
我有一个 pandas dataframe 有 3 列,来自胸部 X 光报告,这些列是“发现”、“印象”和“文件名”以及目录信息。 我有一个单独的胸部 X 射线图像目录,我必须从图像目录中爬行并获取匹配的“file_Name”(因为目录中的图像文件比我的数据框中的图像文件多)并将 pandas da ...
[英]Is there a way to find complex sentiment of text other than just positive/ negative/ happy/ sad?
我正在寻找可以提取文本情感的 model,但我只能找到可以将情感分类为积极/消极/快乐/悲伤的东西。 我正在寻找一些 model,它可以检测更复杂的情绪,例如欣赏、快乐、非正式、正式、困惑、怀疑、遗憾、自信。 是否有任何图书馆或任何 model 可用于此目的? ...
[英]Is there a way to extract strong/extreme words from the text using NLP?
我正在尝试提取极端情感词,即像伟大、令人敬畏、惊人、有趣、耐人寻味的词。 诸如好、坏、喜欢、不喜欢之类的词不应被视为极端词。 有什么办法可以使用 python 实现吗? 我已经尝试了一些东西,但我能够获取所有单词,也提取了仅定义情绪但不太强烈的单词。 ...
[英]Not loading all checkpoints when training again
我希望能够从前一天训练的延续开始训练相关的model,但是每次训练都是从某个checkpoint开始训练,而不是从最后一个checkpoint开始训练,这样就使得model每次的训练时间变长了。 通过将“continue_from_global_step”参数的值更改为 1,结果没有变化。 与加载检 ...
[英]with open(os.path.join(directory, filename), 'r','utf-8') as file: TypeError: 'str' object cannot be interpreted as an integer
为什么我收到这个错误 这是我的代码,我正在使用停用词清理从网站上提取的数据,突然出现此错误 ...
[英]Error while loading spacy model from the pickle file
从 pickle 文件加载 spacy NER model 时出现以下错误。 运行以下代码行时出现此错误: self.model = pickle.load(open(model_path, 'rb')) 我已经使用 spacy 版本 3.1.2 训练了 NER model,最近我将 spacy 升 ...
[英]Determining the probability of a sequence generated by T5 model by HuggingFace
我正在使用 HuggingFace 的 T5-Large 进行推理。 给定前提和假设,我需要确定它们是否相关。 因此,如果我输入一个字符串"mnli premise: This game will NOT open unless you agree to them sharing your info ...
[英]Best way to get keyword similarity value from a sentence?
我试图弄清楚什么是最好的方法,什么是我想要实现的目标的最佳指标。 我正在寻找文本之间的相似度值,例如: Keyword: "why can't dogs eat chocolate" 文字: "Chocolate is toxic to dogs because it contains theob ...
[英]Constructing Tensorflow Dataset and applying TextVectorization layer using map method
我正在尝试为 NLP model 构建嵌入层的输入。但是,我在将原始文本数据转换为嵌入层所需的数字输入时遇到了问题。 下面是一些示例数据,用于说明我希望提供给 NLP model 的内容: 每个文档包含一个句子和一个 label。这种数据格式的灵感来自于我正在处理的教程提示: 你的任务 在本课中,你 ...
[英]Find all the variations (or tenses) of a word in Python
我想知道如何找到一个单词的所有变体,或者与 Python 中的原始单词相关或非常相似的单词。 我正在寻找的事情的一个例子是这样的: 这只是代码应该做什么的一个例子,我已经看到了关于同一主题的其他类似问题,但它们都不够准确,我找到了一些代码并将其更改为我自己的代码,这有点管用,但现在开始了我愿意。 ...
[英]Is there a way to tokenize my text data in a df column into phrases instead of words?
再会。 我对文本分析有点陌生,自己尝试了一些简单的东西:我有一个 df 如下: data = ['bank a earned 3 million usd through investing in certain funds and earned 500k eur from other invest ...
[英]Evaluation of gensim Doc2Vec model for Recommendations
我开发了一个管道来从文档中提取文本,预处理文本,并在给定的文档上训练 gensim Doc2vec model。 给定我的语料库中的文档,我想推荐语料库中的其他文档。 我想知道如何在没有预定义的“好”推荐列表的情况下评估我的 model。 有任何想法吗? ...