从R中的语料库创建单词子集

Question

我有一个使用XML包通过Twitter搜索创建的1,500行向量。 然后，我将其转换为可与tm软件包一起使用的语料库。 我最终希望使用其中一些（最常用的）单词来创建一个wordcloud，因此我将其转换为TermDocumentMatrix以便能够以最低的频率查找术语。 我创建对象“ a”，这是这些术语的列表。

a <- findFreqTerms(mydata.dtm, 10)

wordcloud程序包不适用于文档矩阵。 因此，现在，我想过滤原始向量，使其仅包含“ a”对象中包含的单词（当然，如果使用对象本身，则每个常见单词只有一个实例）。

任何建议，不胜感激。

Answer 1

您可以将tdm对象转换为矩阵，然后使用该矩阵来获得wordcloud可以使用的东西：

library(tm)
library(wordcloud)
# example data from the tm package
data(crude)
tdm <- TermDocumentMatrix(crude,
                      control = list(removePunctuation = TRUE,
                                     stopwords = TRUE))
v <- rowSums(as.matrix(tdm))
names(v) <- rownames(as.matrix(tdm))
v <- sort(v, decreasing=T)

现在，您可以使用标准子集（ [ ）过滤掉不常用的单词，或者在要绘制时可以将min.freq参数用于wordcloud ：

wordcloud(names(v), v, min.freq=10, scale=c(10,.3))

从R中的语料库创建单词子集

问题描述

1 个解决方案

解决方案1
6 2013-03-19 15:35:22

从R中的语料库创建单词子集

问题描述

1 个解决方案

解决方案1 6 2013-03-19 15:35:22

解决方案1
6 2013-03-19 15:35:22