下午好, 我正在尝试对大量不同长度的规范文本进行排序,并标记词性 (POS)。 为此,我使用了 tm 和 udpipe 库,并给出了数据库的长度。 我需要执行的另一项任务是识别实体。 我尝试了 SpacyR 库,但它无法正确识别组织的名称,因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...
下午好, 我正在尝试对大量不同长度的规范文本进行排序,并标记词性 (POS)。 为此,我使用了 tm 和 udpipe 库,并给出了数据库的长度。 我需要执行的另一项任务是识别实体。 我尝试了 SpacyR 库,但它无法正确识别组织的名称,因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...
我正在使用 udpipe 对文章内容进行注释,对报纸文章中的名词进行标准主题建模任务。 使用 function udpipe_annotate() 我注意到带有以下标点符号的单词有时被标记为 upos = NOUN。 因此,当我从库 topicmodels 运行主题 model function - ...
我正在使用 UDPipe 模型进行文本标记化和词形还原。 我可以通过使用!echo命令或打印到文件中来完成任务本身,但我想生成一个 Python 数据结构来进一步处理输出。 什么有效 这是我的工作命令: 出去: 这适用于将输出打印到文件中: ./udpipe是包的克隆仓库 我尝试了什 ...
我有一个带有一堆文本字符串的数据框。 在第二个数据框中,我有一个短语列表,用作查找表。 我想在查找表中搜索所有可能的短语匹配的文本字符串。 我的问题是某些短语有重叠的单词。 例如:“鸡蛋”和“绿色鸡蛋”。 在结果中,您可以看到返回的是“the cat”而不是“cat”,返回的是“green eggs ...
大家好,我是 NLP 算法和 R 的新手。 我想从 pdf 中提取一对(动词名词)? 我被困在一个词频话题上。 比如“在刑事和民事诉讼及其他法律诉讼中代表客户,起草法律文件,或就法律交易管理或建议客户。可能专注于单一领域,也可能在多个法律领域广泛执业。” 我想提取这些的动词名词。 我会怎么做? ...
有没有办法将自定义用户定义的单词字典添加到udpipe models ? For example, below using the default english model, some of the words should have been identified as the keywor ...
我正在尝试将大小为 1.2GB 的带注释的 NLP model 转换为 dataframe。 我在 R 中使用 Udpipe package 进行自然语言处理,代码如下: 请注意,我有 32GB RAM 并将所有可用的 memory 分配给 R 以运行代码。 我还尝试删除存储在 R 环境空间中与运 ...
我希望从“标题”列中为每个组(第一列)提取主要关键字。 “所需标题”列中的所需结果: 可重现的数据: 我研究了记录链接解决方案,但这主要是为了对完整标题进行分组。 任何建议都会很棒。 ...
我正在尝试将自定义 spacy-udpipe model 加载到 google colab 中。 我试过了import spacy_udpipe nlp = udpipe_download_model(language = ("italian-postwita")) 但我收到以下错误消息: ...
我是 udpipe package 的新手,我认为它对社会科学有很大的潜力。 我目前的一个项目是研究新闻文章如何写网络和网络(即人的种类,而不是计算机网络)。 为此,我从荷兰网站上搜索了 500 篇带有搜索字符串“network”的文章,以获取有关灵活经济的新闻(这是新闻和讨论的主要来源,例如自营 ...
我正在使用 udpipe 包(用于 R)中的功能 keyword_rake 从一堆文档中提取关键字。 数据看起来像这样 (每一行是一个单独的文档) 但是输出不包括关键字的来源,并提供所有文档的关键字列表 如何将这些关键字链接到它们取自的相应文档? (即每个文档都有一个关键字列表) 像 ...
我一直在使用 pytextrank ( https://github.com/DerwenAI/pytextrank/ ) 和 spacy 和英语模型来提取关键字 - 效果很好! 现在我需要处理非英文文本,我找到了 udpipe ( https://github.com/TakeLab/spacy ...
我有很多医疗报告。 我试图确定表明将来会采取行动的句子,例如'I will prescribe a medication' 我使用的是udpipe的English-ewt模型,我也尝试过English-gum,但都没有给我这个动词的未来时态-Just Tense Past / Pres ...
我正在尝试使用udpipe的RAKE生成数据帧中每个文档25个RAKE令牌的列表,并将这些令牌(加上简单的str_count)写回到数据帧。 我构造了一个for循环来处理,但是我将相同的结果写入每行,而不是将不同的结果写入每行。 已安装和使用的软件包是udpipe,dplyr,strin ...
万一我想保持井号标签符号及其单词完整(即#company而不是#and company),如何更改默认设置 我得到的是#和公司作为两个不同的令牌。 我希望#company作为单个令牌。 虽然我将@mr_jones作为单个令牌。 ...
我目前正在处理一个文本挖掘文档,我想从我的文本中提取相关关键字(请注意,我有很多很多文本文档)。 我正在使用 udpipe 包。 一个很棒的小插图在线 ( http://bnosac.be/index.php/blog/77-an-overview-of-keyword-extraction-te ...
让我们从一个可重现的示例开始,这是一个由8列和3行组成的称为key的数据帧: 我想独立提取每一列的关键字 。 为此,我使用了R中的udpipe软件包。 因为我想运行每一列中的函数,所以我运行了一个for循环。 开始之前,我们以英语为参考创建模型( 有关更多信息,请参见此链接 ...
我正在使用R包udpipe在数据框中提取关键字。 让我们从包中包含的一些数据开始: 如果我们看一下结构,就会看到它包含1500条注释(行)和4列。 当遵循本教程时 ,我可以一起提取所有数据框的关键字。 优秀的。 但是,我的要求是提取每一行中的关键字 ,而不是整个数据帧中 ...
所以我才发现udpipe有一种很棒的显示相关性的方式,所以我开始研究它。 如果导入后我在csv文件上使用它,并且不对其进行任何更改,则此站点中的代码将是完美的。 但是,一旦创建语料库并且更改/删除了一些单词,我的问题就会出现。 我不是R方面的专家,但是我已经在Google上搜索了很多东 ...
我正在创建Shiny App,目的是输入文本文件,并使用udpipe库需要创建wordcloud,annoate等... 运行应用程序时,我收到“ inherits(x,“ character”)不正确”的信息。 问题来自“注释”选项卡,因为我正在尝试从Server.R文件返回数据表 ...