标签[udpipe] - 堆栈内存溢出

如何使用带有个性化数据的 SpacyR 提取实体名称？ - How to extract entities names with SpacyR with personalized data?

下午好，我正在尝试对大量不同长度的规范文本进行排序，并标记词性 (POS)。为此，我使用了 tm 和 udpipe 库，并给出了数据库的长度。我需要执行的另一项任务是识别实体。我尝试了 SpacyR 库，但它无法正确识别组织的名称，因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...

如果后跟标点符号，r 中的 udpipe_annotate() 会以不同的方式标记相同的单词 - udpipe_annotate() in r labels the same word differently if followed by punctuation

我正在使用 udpipe 对文章内容进行注释，对报纸文章中的名词进行标准主题建模任务。使用 function udpipe_annotate() 我注意到带有以下标点符号的单词有时被标记为 upos = NOUN。因此，当我从库 topicmodels 运行主题 model function - ...

将 Bash 管道输出为 Python 兼容格式 - Output Bash pipes to Python-compatible format

我正在使用 UDPipe 模型进行文本标记化和词形还原。我可以通过使用!echo命令或打印到文件中来完成任务本身，但我想生成一个 Python 数据结构来进一步处理输出。什么有效这是我的工作命令：出去：这适用于将输出打印到文件中： ./udpipe是包的克隆仓库我尝试了什 ...

查找字符串和查找表之间所有可能的短语匹配 - Find all possible phrase matches between string and lookup table

我有一个带有一堆文本字符串的数据框。在第二个数据框中，我有一个短语列表，用作查找表。我想在查找表中搜索所有可能的短语匹配的文本字符串。我的问题是某些短语有重叠的单词。例如：“鸡蛋”和“绿色鸡蛋”。在结果中，您可以看到返回的是“the cat”而不是“cat”，返回的是“green eggs ...

R - NLP - 提取对 - R - NLP - Extract pair

大家好，我是 NLP 算法和 R 的新手。我想从 pdf 中提取一对（动词名词）？我被困在一个词频话题上。比如“在刑事和民事诉讼及其他法律诉讼中代表客户，起草法律文件，或就法律交易管理或建议客户。可能专注于单一领域，也可能在多个法律领域广泛执业。” 我想提取这些的动词名词。我会怎么做？ ...

如何使用自定义字典扩充 udpipe 模型？ - How to augment udpipe models with custom dictionary?

有没有办法将自定义用户定义的单词字典添加到udpipe models ？ For example, below using the default english model, some of the words should have been identified as the keywor ...

How to fix memory allocation issues when converting annotated NLP model to dataframe in R - How to fix memory allocation issues when converting annotated NLP model to dataframe in R

我正在尝试将大小为 1.2GB 的带注释的 NLP model 转换为 dataframe。我在 R 中使用 Udpipe package 进行自然语言处理，代码如下：请注意，我有 32GB RAM 并将所有可用的 memory 分配给 R 以运行代码。我还尝试删除存储在 R 环境空间中与运 ...

R按组提取列中最常见的单词/ ngrams - R extract most common word(s) / ngrams in a column by group

我希望从“标题”列中为每个组（第一列）提取主要关键字。 “所需标题”列中的所需结果：可重现的数据：我研究了记录链接解决方案，但这主要是为了对完整标题进行分组。任何建议都会很棒。 ...

SpaCy-UDpipe 负载定制 model colab - SpaCy-UDpipe load custom model colab

我正在尝试将自定义 spacy-udpipe model 加载到 google colab 中。我试过了import spacy_udpipe nlp = udpipe_download_model(language = ("italian-postwita")) 但我收到以下错误消息： ...

如何在 R 中找到特定术语与 udpipe 的共现？ - How to find the co-occurences of a specific term with udpipe in R?

我是 udpipe package 的新手，我认为它对社会科学有很大的潜力。我目前的一个项目是研究新闻文章如何写网络和网络（即人的种类，而不是计算机网络）。为此，我从荷兰网站上搜索了 500 篇带有搜索字符串“network”的文章，以获取有关灵活经济的新闻（这是新闻和讨论的主要来源，例如自营 ...

udpipe (keywords_rake) 如何将关键字链接到它们从中提取的文档 - udpipe (keywords_rake) how to link keywords to the document they where extracted from

我正在使用 udpipe 包（用于 R）中的功能 keyword_rake 从一堆文档中提取关键字。数据看起来像这样（每一行是一个单独的文档）但是输出不包括关键字的来源，并提供所有文档的关键字列表如何将这些关键字链接到它们取自的相应文档？（即每个文档都有一个关键字列表）像 ...

带有 pytextrank 的 spacy-udpipe 从非英文文本中提取关键字 - spacy-udpipe with pytextrank to extract keywords from non-English text

我一直在使用 pytextrank ( https://github.com/DerwenAI/pytextrank/ ) 和 spacy 和英语模型来提取关键字 - 效果很好！现在我需要处理非英文文本，我找到了 udpipe ( https://github.com/TakeLab/spacy ...

如何使用udpipe获得动词的未来时态 - How to get future tense for a verb with udpipe

我有很多医疗报告。我试图确定表明将来会采取行动的句子，例如'I will prescribe a medication' 我使用的是udpipe的English-ewt模型，我也尝试过English-gum，但都没有给我这个动词的未来时态-Just Tense Past / Pres ...

R-将每篇文章的udpipe RAKE关键字解析回数据框 - R - Parsing keywords from udpipe RAKE per article back to dataframe

我正在尝试使用udpipe的RAKE生成数据帧中每个文档25个RAKE令牌的列表，并将这些令牌（加上简单的str_count）写回到数据帧。我构造了一个for循环来处理，但是我将相同的结果写入每行，而不是将不同的结果写入每行。已安装和使用的软件包是udpipe，dplyr，strin ...

如何将标签及其单词作为单个标记保留 - how to keep hashtags and their words as a single token

万一我想保持井号标签符号及其单词完整（即#company而不是＃and company），如何更改默认设置我得到的是＃和公司作为两个不同的令牌。我希望#company作为单个令牌。虽然我将@mr_jones作为单个令牌。 ...

使 udpipe_annotate() 更快 - Make udpipe_annotate() faster

我目前正在处理一个文本挖掘文档，我想从我的文本中提取相关关键字（请注意，我有很多很多文本文档）。我正在使用 udpipe 包。一个很棒的小插图在线 ( http://bnosac.be/index.php/blog/77-an-overview-of-keyword-extraction-te ...

R中使用udpipe提取关键字时的for循环 - For loop when extracting keywords with udpipe in R

让我们从一个可重现的示例开始，这是一个由8列和3行组成的称为key的数据帧：我想独立提取每一列的关键字。为此，我使用了R中的udpipe软件包。因为我想运行每一列中的函数，所以我运行了一个for循环。开始之前，我们以英语为参考创建模型（有关更多信息，请参见此链接 ...

使用R中的udpipe提取数据帧每一行中的关键字 - Extracting keywords in each row of a data frame using udpipe in R

我正在使用R包udpipe在数据框中提取关键字。让我们从包中包含的一些数据开始：如果我们看一下结构，就会看到它包含1500条注释（行）和4列。当遵循本教程时，我可以一起提取所有数据框的关键字。优秀的。但是，我的要求是提取每一行中的关键字，而不是整个数据帧中 ...

将content_transformer与udpipe_annotate一起使用 - Using content_transformer with udpipe_annotate

所以我才发现udpipe有一种很棒的显示相关性的方式，所以我开始研究它。如果导入后我在csv文件上使用它，并且不对其进行任何更改，则此站点中的代码将是完美的。但是，一旦创建语料库并且更改/删除了一些单词，我的问题就会出现。我不是R方面的专家，但是我已经在Google上搜索了很多东 ...

在R编程Shiny App中，Inherits（x，“ character”）不是TRUE - inherits(x, “character”) is not TRUE in R programming Shiny App

我正在创建Shiny App，目的是输入文本文件，并使用udpipe库需要创建wordcloud，annoate等... 运行应用程序时，我收到“ inherits（x，“ character”）不正确”的信息。问题来自“注释”选项卡，因为我正在尝试从Server.R文件返回数据表 ...