我想从 PDF 格式的科学文档中提取文本。 我首先使用 PyPDF2,但随机空格出现在几个单词的中间。 我目前正在使用 PyMUPDFimport fitz import re def extract_pdf_text(pdf_file_path): doc = fitz.open(pdf ...
我想从 PDF 格式的科学文档中提取文本。 我首先使用 PyPDF2,但随机空格出现在几个单词的中间。 我目前正在使用 PyMUPDFimport fitz import re def extract_pdf_text(pdf_file_path): doc = fitz.open(pdf ...
如何让SpaCy将诸如“cant”和“wont”之类的词设置为停用词? 例如,即使使用标记化,它也会将“can't”识别为停用词,而不是“cant”。 当它看到“cant”时,它会删除“ca”但留下“nt”。 是设计使然吗? 我想“nt”并不是一个真正的词。 这是一个示例代码: ...
我正在尝试运行 spaCy 的模糊匹配方法。 我为 spaCy package 和 model en_core_web_sm 使用 3.5.0 版本。 我运行了以下命令: 运行上面的代码时,出现以下错误: MatchPatternError:匹配器规则“my_name”的无效令牌模式模式 0:[ ...
import re, spacy def evaluates_if_substring_is_a_verb_func(input_element): #---------------------------------- #nlp = spacy.load('en_core_web ...
这个涉及到Spacy实体链接库: https://github.com/egerber/spaCy-entity-linker 当我使用以下代码时: 我得到:ValueError:[E139] 组件“entity_linker”的知识库为空。 使用方法kb.add_entity和kb.add_ali ...
下午好, 我正在尝试对大量不同长度的规范文本进行排序,并标记词性 (POS)。 为此,我使用了 tm 和 udpipe 库,并给出了数据库的长度。 我需要执行的另一项任务是识别实体。 我尝试了 SpacyR 库,但它无法正确识别组织的名称,因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...
我想在跨度(发送)列表中使用 Spacy 的 Matcherclass Chunker: def __init__(self, nlp, matcher): self.nlp = nlp self.matcher = matcher self. ...
我的目的与以下帖子中的完全相同: 如何提取句子中的主语及其各自的从属短语? 因此,我使用了本文原作者提供的代码: 但是因为使用的版本不同,所以我根据原帖评论中的提示做了两处必要的修改。 更改以下代码: 到: 更改 findSVAOs 中的代码: 到: 什么时候: Output: 这是一个可以接 ...
我试图加载训练有素的 spacy model 但出现此错误: 这是我的代码: ...
我正在尝试使用 spacy 对 dataframe 中的聊天记录进行词形还原。 我的代码是: 我有大约 600.000 行,应用需要两个多小时才能执行。 是否有更快的包/方式来进行词形还原? (我需要一个适用于西班牙语的解决方案) 我只尝试过使用 spacy package ...
我正在使用 SpaCy coreferee 插件。 执行非常简单: 我遇到的问题是如何将共指群集 map 返回到文本并返回共指文本。 我想我会以某种方式需要遍历doc中的所有标记,并检查它们是否可以用共指集群映射和解决。 我对 SpaCy 的经验很少,所以我真的不知道实现这一目标的最佳途径是什么。 ...
WhisperX 是一个 whisper 扩展,它在文本到语音方面做得非常出色,每个单词都有时间戳。 我想使用 spaCy 将文本字符串拆分为合理的子句,但保持与源字典的连接,以便结果可以通知字幕和其他视频编辑工具。 在 spaCy 中有没有办法做到这一点? 我看到的大多数示例都需要输入文本字符 ...
假设我有两个句子。 I took a fall last month. ,以及西班牙语Tomé una caída el mes pasado. Spacy 给了我以下内容: 和 Spacy 将Tomé视为一个名字,而不是一个动词。 但我知道这是一个动词,因为有英文词性标记。 我的问题不是 ...
我在索引中有一组文档 S,其中每个文档 D 都有一个文本字段 D.text。 我想使用文本查询 Q 来查找查询 Q 中包含/匹配文本的文档。 一个例子: 包含文档 D1、D2 和 D3 的集合 S 分别有文本“Stranger Things”、“特效是一流的”、“有趣的,总是让我处于边缘”。 文本查 ...
我正在使用 spaCy 处理 NLP 过程,并尝试获取一个字典的结果(分析结果)以与完整字典(由我预先确定)进行交叉检查。 我正在尝试取一个句子,通过 spaCy 运行它,看看它是否包含被视为正确英语句子的所有要求。 我尝试了 2 种不同的方法,但均无效。 设置 my_phrase 方法一检查句子 ...
我正在尝试比较两个不同的文本。 一个来自简历,另一个来自工作公告。 清理文本后,我试图比较它们以检测公告是否更多地链接到特定的 CV 个人资料。 我实际面临的问题是在这里使用 Spacy 的similarity = pdf_text.similarity(final_text_from_annonc ...
结果是: 如何获取文档中包含(15955766757638404248, 0, 2), (15955766757638404248, 11, 13)和(15955766757638404248, 13, 15)的句子或句子编号。 例如,我想在句子 1 中得到 (159557667576384042 ...
我尝试使用以下方法为 python 安装 spacy: 这有效,但是当试图通过运行简短的 python 程序来访问 spacy model: "en_core_web_lg" 时: 我最终得到了错误: 几周前,我在运行 MacOS Ventura 的 Mac 上的 venv 外安装了 tensor ...
当我使用 Spacy 尝试这段代码时,我得到了想要的结果: output 显示All和my 。 但是,如果我添加一个问号: 现在它还将MyBOQ标识为代词。 它应该归类为组织名称 ( word.pos_ == 'ORG' )。 我如何告诉 Spacy 不要将 MyBOQ 归类为代词? 我应该在检查 ...
注意:这不是一个重复的问题,因为我已经完成了这个答案并进行了必要的 package 降级,但它仍然导致相同的错误。 详情如下。 # 系统详细信息 MacBook Air(M1,2020 年) MacOS 蒙特雷 12.3 Python 3.10.8(Miniconda环境) pip fre ...