标签[spacy] - 堆栈内存溢出

从 PDF 篇科学论文中提取文本 - Extracting text from PDF scientific papers

我想从 PDF 格式的科学文档中提取文本。我首先使用 PyPDF2，但随机空格出现在几个单词的中间。我目前正在使用 PyMUPDFimport fitz import re def extract_pdf_text(pdf_file_path): doc = fitz.open(pdf ...

将单词“cant”添加到 Spacy 停用词 - Add the word "cant" to Spacy stopwords

如何让SpaCy将诸如“cant”和“wont”之类的词设置为停用词？例如，即使使用标记化，它也会将“can't”识别为停用词，而不是“cant”。当它看到“cant”时，它会删除“ca”但留下“nt”。是设计使然吗？我想“nt”并不是一个真正的词。这是一个示例代码： ...

spaCy 模糊匹配错误：“不允许有额外字段” - spaCy fuzzy matching error: "extra fields not permitted"

我正在尝试运行 spaCy 的模糊匹配方法。我为 spaCy package 和 model en_core_web_sm 使用 3.5.0 版本。我运行了以下命令：运行上面的代码时，出现以下错误： MatchPatternError：匹配器规则“my_name”的无效令牌模式模式 0：[ ...

如何将字符串列表中的每个字符串发送到 function，然后用 function 生成的列表替换该列表元素？ - How to send each of the strings within a list of strings to a function, and then replace that list element with the list that the function generates?

import re, spacy def evaluates_if_substring_is_a_verb_func(input_element): #---------------------------------- #nlp = spacy.load('en_core_web ...

Spacy 实体链接：wiki 数据集未连接 - Spacy entity linking: wiki dataset not connected

这个涉及到Spacy实体链接库： https://github.com/egerber/spaCy-entity-linker 当我使用以下代码时：我得到：ValueError：[E139] 组件“entity_linker”的知识库为空。使用方法kb.add_entity和kb.add_ali ...

如何使用带有个性化数据的 SpacyR 提取实体名称？ - How to extract entities names with SpacyR with personalized data?

下午好，我正在尝试对大量不同长度的规范文本进行排序，并标记词性 (POS)。为此，我使用了 tm 和 udpipe 库，并给出了数据库的长度。我需要执行的另一项任务是识别实体。我尝试了 SpacyR 库，但它无法正确识别组织的名称，因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...

在 Spacy 中使用多个时间匹配器 - Using multiple time Matcher in Spacy

我想在跨度（发送）列表中使用 Spacy 的 Matcherclass Chunker: def __init__(self, nlp, matcher): self.nlp = nlp self.matcher = matcher self. ...

如何提取句子的主语、动词、object及其关系？ - How to extract the subject, verb, object and their relationship of a sentence?

我的目的与以下帖子中的完全相同：如何提取句子中的主语及其各自的从属短语？因此，我使用了本文原作者提供的代码：但是因为使用的版本不同，所以我根据原帖评论中的提示做了两处必要的修改。更改以下代码：到：更改 findSVAOs 中的代码：到：什么时候： Output：这是一个可以接 ...

OSError: [E053] 无法从 model-best.zip 中读取 meta.json - OSError: [E053] Could not read meta.json from model-best.zip

我试图加载训练有素的 spacy model 但出现此错误：这是我的代码： ...

与 Spacy 一起永远进行词形还原 - Lemmatization taking forever with Spacy

我正在尝试使用 spacy 对 dataframe 中的聊天记录进行词形还原。我的代码是：我有大约 600.000 行，应用需要两个多小时才能执行。是否有更快的包/方式来进行词形还原？（我需要一个适用于西班牙语的解决方案）我只尝试过使用 spacy package ...

SpaCy Coreferee：如何干净地提取共同引用的文本 - SpaCy Coreferee: How to cleanly extract coreferenced text

我正在使用 SpaCy coreferee 插件。执行非常简单：我遇到的问题是如何将共指群集 map 返回到文本并返回共指文本。我想我会以某种方式需要遍历doc中的所有标记，并检查它们是否可以用共指集群映射和解决。我对 SpaCy 的经验很少，所以我真的不知道实现这一目标的最佳途径是什么。 ...

spaCy 句子分离与来自 OpenAI Whisper / WhisperX 的字典源？ - spaCy sentence separation with dictionary source from OpenAI Whisper / WhisperX?

WhisperX 是一个 whisper 扩展，它在文本到语音方面做得非常出色，每个单词都有时间戳。我想使用 spaCy 将文本字符串拆分为合理的子句，但保持与源字典的连接，以便结果可以通知字幕和其他视频编辑工具。在 spaCy 中有没有办法做到这一点？我看到的大多数示例都需要输入文本字符 ...

是否可以在 Spacy 中手动更正 POS 标签，并在更新 POS 后重新获取引理？ - Is it possible to manually correct a POS tag in Spacy, and also refetch the lemma after updating the POS?

假设我有两个句子。 I took a fall last month. ，以及西班牙语Tomé una caída el mes pasado. Spacy 给了我以下内容：和 Spacy 将Tomé视为一个名字，而不是一个动词。但我知道这是一个动词，因为有英文词性标记。我的问题不是 ...

有效匹配查询文本中包含的文本 - Efficiently match texts contained in a query text

我在索引中有一组文档 S，其中每个文档 D 都有一个文本字段 D.text。我想使用文本查询 Q 来查找查询 Q 中包含/匹配文本的文档。一个例子：包含文档 D1、D2 和 D3 的集合 S 分别有文本“Stranger Things”、“特效是一流的”、“有趣的，总是让我处于边缘”。文本查 ...

是否可以检查字典的子集是否来自 python 中的主字典？ - Is it possible to check if a subset of a dictionary comes from a main dictionary in python?

我正在使用 spaCy 处理 NLP 过程，并尝试获取一个字典的结果（分析结果）以与完整字典（由我预先确定）进行交叉检查。我正在尝试取一个句子，通过 spaCy 运行它，看看它是否包含被视为正确英语句子的所有要求。我尝试了 2 种不同的方法，但均无效。设置 my_phrase 方法一检查句子 ...

我如何检查含义的相似性，而不仅仅是两个具有 spacy 的文本之间的相同单词 - How can I check similarity in meaning and not just having same words between two texts with spacy

我正在尝试比较两个不同的文本。一个来自简历，另一个来自工作公告。清理文本后，我试图比较它们以检测公告是否更多地链接到特定的 CV 个人资料。我实际面临的问题是在这里使用 Spacy 的similarity = pdf_text.similarity(final_text_from_annonc ...

如何获取 Spacy 中包含 span 或 token 的句子的编号？ - How get the number of the sentence that include a span or token in Spacy?

结果是：如何获取文档中包含(15955766757638404248, 0, 2), (15955766757638404248, 11, 13)和(15955766757638404248, 13, 15)的句子或句子编号。例如，我想在句子 1 中得到 (159557667576384042 ...

内部：平台已注册名称：“METAL” - INTERNAL: platform is already registered with name: "METAL"

我尝试使用以下方法为 python 安装 spacy：这有效，但是当试图通过运行简短的 python 程序来访问 spacy model: "en_core_web_lg" 时：我最终得到了错误：几周前，我在运行 MacOS Ventura 的 Mac 上的 venv 外安装了 tensor ...

Spacy 错误地识别代词 - Spacy incorrectly identifying pronouns

当我使用 Spacy 尝试这段代码时，我得到了想要的结果： output 显示All和my 。但是，如果我添加一个问号：现在它还将MyBOQ标识为代词。它应该归类为组织名称 ( word.pos_ == 'ORG' )。我如何告诉 Spacy 不要将 MyBOQ 归类为代词？我应该在检查 ...

Streamlit + Spacy 导致“AttributeError: 'PathDistribution' object 没有属性 '_normalized_name'” - Streamlit + Spacy causing "AttributeError: 'PathDistribution' object has no attribute '_normalized_name'"

注意：这不是一个重复的问题，因为我已经完成了这个答案并进行了必要的 package 降级，但它仍然导致相同的错误。详情如下。 # 系统详细信息 MacBook Air（M1，2020 年） MacOS 蒙特雷 12.3 Python 3.10.8（Miniconda环境） pip fre ...