語料庫中的單詞數量

Question

我正在尋找一種方法來找到文本中最常用的單詞，而我最常使用的是R.我的意思是它們的低頻率是語料庫中單詞的1％。 所以我需要計算語料庫中的單詞數量。

到目前為止，這是我的代碼：

#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
                        readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)

我需要這樣的東西：

freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100)

Answer 1

如果你看一下str(mydata.dtm) ，就會有一個名為nrow的命名組件。 使用：

freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)

語料庫中的單詞數量

問題描述

1 個解決方案

解決方案1
7 已采納 2012-11-27 00:02:23

語料庫中的單詞數量

問題描述

1 個解決方案

解決方案1 7 已采納 2012-11-27 00:02:23

解決方案1
7 已采納 2012-11-27 00:02:23