繁体   English   中英

从R中的语料库创建单词子集

[英]Creating a subset of words from a corpus in R

我有一个使用XML包通过Twitter搜索创建的1,500行向量。 然后,我将其转换为可与tm软件包一起使用的语料库。 我最终希望使用其中一些(最常用的)单词来创建一个wordcloud,因此我将其转换为TermDocumentMatrix以便能够以最低的频率查找术语。 我创建对象“ a”,这是这些术语的列表。

a <- findFreqTerms(mydata.dtm, 10)

wordcloud程序包不适用于文档矩阵。 因此,现在,我想过滤原始向量,使其仅包含“ a”对象中包含的单词(当然,如果使用对象本身,则每个常见单词只有一个实例)。

任何建议,不胜感激。

您可以将tdm对象转换为矩阵,然后使用该矩阵来获得wordcloud可以使用的东西:

library(tm)
library(wordcloud)
# example data from the tm package
data(crude)
tdm <- TermDocumentMatrix(crude,
                      control = list(removePunctuation = TRUE,
                                     stopwords = TRUE))
v <- rowSums(as.matrix(tdm))
names(v) <- rownames(as.matrix(tdm))
v <- sort(v, decreasing=T)

现在,您可以使用标准子集( [ )过滤掉不常用的单词,或者在要绘制时可以将min.freq参数用于wordcloud

wordcloud(names(v), v, min.freq=10, scale=c(10,.3))

词云

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM