标签[tm] - 堆栈内存溢出

如何使用带有个性化数据的 SpacyR 提取实体名称？ - How to extract entities names with SpacyR with personalized data?

下午好，我正在尝试对大量不同长度的规范文本进行排序，并标记词性 (POS)。为此，我使用了 tm 和 udpipe 库，并给出了数据库的长度。我需要执行的另一项任务是识别实体。我尝试了 SpacyR 库，但它无法正确识别组织的名称，因此我想根据我亲自验证过的语料库中的一些文档来训练自定义 ...

PDA for equal number of as and b's where n>=1 - PDA for equal number of as and b's where n>=1

如何为具有相等数量的 as 和 b 的语言设计下推自动机，其中 n>=1 我知道如何为 n>=O 做到这一点，但无法为 n>=1 做到这一点 ...

主题建模时出错 tm package - Error in tm package while topic modelling

我在尝试从 R 中的tm package 制作语料库 object 时遇到错误。数据是从一个网站上抓取的，我在下面包含了完整的代码，这样你就可以运行并查看数据是如何收集的以及小标题是如何创建的。最后一行代码是我卡住的地方。（我已经修改了循环，所以它应该会在几秒钟内运行）。任何帮助，将不胜 ...

查找一对文档之间的重叠 - Find overlap in terms between a pair of documents

我有一个由 tm 的 TermDocumentMatrix 生成的稀疏术语文档矩阵。我正在尝试编写一个 function，它采用两个文档名称和 k 作为其 arguments，查找两个文档中出现的所有术语，按术语的字数降序排序列表，并返回前 k。每个术语中的单词用下划线分隔（如 bob_raid ...

使用词典进行文本分析：NGramTokenizer 不起作用 - Text analysis with dictionary of words: NGramTokenizer not working

我正在尝试在文本中查找关键字列表。其中一些关键字是 n-gram。但是，TermDocumentMatrix 只会找到单个单词。我已经看过几个类似的问题，例如这个问题（我从中借用了自定义分词器函数）、这个问题以及更多问题。但是，没有一个建议的解决方案对我有用。我尝试了 R 3.6.3 和 ...

DocumentTermMatrix 遗漏了一些单词 - DocumentTermMatrix misses some words

我正在使用 DocumentTermMatrix 在长文本中查找关键字列表。我列表中的大部分单词都已正确找到，但有几个单词丢失了。现在，我很想在这里发布一个最小的工作示例，但问题是：在一份 32 页的文档中，有一个词（“insolvency”，所以不是问题中的短词）被遗漏了。现在，这个词实际上 ...

localtime() 返回指向具有未初始化成员的结构的指针 - localtime() returns a pointer to a structure with uninitialized members

char datetime[DATETIME_LEN]; time_t timer; struct tm* tm_info; timer = time(NULL); tm_info = localtime(&timer); // debug: tm_info: 0xcccccccccccc ...

package tm 是否适合从文本数据中提取分数？ - is package tm suitable for extracting scores from text data?

我有许多存储为 txt 文件的认知评估数据。每个文件如下所示：如示例数据所示，每个分数的格式都没有很好地排序。它很容易阅读，但很难分析。我想为每位患者提取每次测试的分数并创建一个表格以供进一步分析。因为我之前从未在 R 中使用文本挖掘 function 或 package 。我想知道在 ...

在标记化之前删除小于特定字符长度的单词和降噪 - Remove Words with less than Certain Character Lengths plus Noise Reduction before Tokenization

我有以下数据框从以前的编码帮助中，我们可以使用以下代码删除停用词。我想删除小于特定字符长度的单词（例如，想要删除少于 4 个字符的单词，例如hei和hey ）。另外需要在标记化之前删除手动停用词（例如， saw和kitty ）和常见噪音（空格、数字和标点符号）。最终结果将是：关于噪声和手动 ...

在标记化之前删除数字、标点符号、空格 - Remove Numbers, Punctuations, White Spaces before Tokenization

我有以下数据框从以前的编码帮助中，我们可以使用以下代码删除停用词。上面的数据仍然有噪音（数字、标点符号和空格）。需要在标记化之前通过去除这些噪声来获取以下格式的数据。此外，我想删除选定的停用词（例如， saw和kitty ）。 ...

row_sums vs findFreqTerms 用于子集 TermDocMatrix 以包含具有给定最小频率的单词 - row_sums vs findFreqTerms for subsetting TermDocMatrix to include words with a given min frequency

我的问题很简单。我有一个（二进制）TDM，我想减少行数以仅包含出现在至少两个文档中的那些行：我认为这两种方法会在二进制矩阵中产生相同的结果：但事实并非如此.. 你能帮忙弄清楚为什么不是吗？ ...

在 R igraph 中绘制图形时出现土耳其字符问题 - Turkish characters problem while plotting graphs in R igraph

我有一个包含土耳其语推文的数据集。我正在尝试使用 tm package 和 plot the.networks 以及 igraph R 包进行文本挖掘。 Output plot 诸如“ş ğ ü”之类的土耳其字符无法正确显示。可能是什么问题？这是我的 R 工作室区域设置： ...

如何添加目标变量看句子属于数据1还是数据2？ - How to add target variable whether to see sentence belongs to data 1 or data 2?

我正在做一个项目。我想用类似的案例来总结一下。我需要收集 n 条具有不同 hastags 的推文。这是类似的代码： ...

如何从长格式文本数据创建文档术语关联矩阵？ - How to create a document term incidence matrix from long format text data?

我有看起来像这样的数据： ID 单词 1 蓝色的 1 红色的 1 绿色 1 黄色 2 蓝色的 2 紫色的 2 橙 2 绿色但我想将它们转换为二进制关联矩阵，表示某个单词是否出现在某个文档 ID 中。换句话说，我想创建一个如下所示的矩阵： ID 蓝色的红色的绿色黄色紫色的橙 1 1 1 ...

如何在不删除 hash 符号的情况下从文本中提取二元组？ - How can I extract bigrams from text without removing the hash symbol?

我正在使用以下 function （基于https://rpubs.com/sprishi/twitterIBM ）从文本中提取二元组。但是，出于分析目的，我想保留 hash 符号。清理文本的 function 工作正常，但未嵌套的令牌 function 删除了特殊字符。有没有办法在不删除特 ...

清理语料库后出现 TermDocumentMatrix 错误 - TermDocumentMatrix Error after Cleaning Corpus

我的问题是我想将我的语料库传递给 tm function termdocumentmatrix() 并且它失败并出现错误： Error in UseMethod("meta", x): no applicable method for meta' applied to an object of cl ...

如何在一组字符串中删除 r 中的这些特殊字符：â€™s, ... - How to remove these special characters in r in a set of string : â€™s, â€¦

我有这个包含特殊字符的字符串，我无法从主数据框中删除这些字符，但是，当我通过 dft 准备一个单独的对象然后使用以下代码时，我能够删除特殊字符。但是当我在主数据框上使用相同的代码时，以不同的行（推文）的形式如下所示，相同的代码将不起作用并显示错误：使用方法错误（“检查”，x）：不适用应用于“角 ...

无法从 r 中的字符串中的数据中删除这些字符 - Unable to remove these characters from the data in a string in r

我试图在以下代码的帮助下从以下字符串中删除特殊字符，但没有得到结果：图书馆（商标）请帮助我..非常感谢 ...

文本挖掘：聚类分析短语。错误：无法抽取大于总体的样本 - Text Mining: Cluster Analysis phrases. ERROR: cannot take a sample larger than the population

我正在处理包含数千个句子的数据集。数据集由一列和 k 行构成。我必须找到它们之间的一些相似之处，例如我正在进行聚类分析。我创建了一个语料库并将其转换为数字（TF-IDF），然后我开始进行聚类分析。当我做 kmeans 时，它给了我错误：“不能采取大于总体的样本”并且我无法继续分析。我认为问 ...

从 r 中的非结构化文本文件中提取表格 - Extract table from unstructured text file in r

我有一个名为data.txt的文本文件，其中包含以下格式的多个表格。我需要提取所有表并将它们存储在一个 excel 文件中。我试图搜索代码，但找不到正确的代码。请在这方面帮助我。 ...