繁体   English   中英

如何通过R中的tm包将TDM csv文件转换为Term Docment Matrix?

[英]How to convert TDM csv file into Term Docment Matrix by tm package in R?

我在csv文件中有术语文档矩阵。 例如,

       , doc1, doc2, doc3, doc4, doc5
main   ,    2,    0,    3,    0,    0

virtual,    4,    0,    0,    0,    1

origin ,    0,    0,    1,    2,    0

....

如何将其转换为tm包中的术语文档矩阵?

我认为TermDocumentMatrix()函数的术语文档矩阵可以从文档中的句子(单词列表)创建。

但是我已经有了术语文档矩阵,我想在tm包中导入和使用它。

请让我知道方法。

这是一种方法(但是tm包中可能有直接方法):

x <- read.csv(text="   , doc1, doc2, doc3, doc4, doc5
main , 2, 0, 3, 0, 0

virtual, 4, 0, 0, 0, 1

origin , 0, 0, 1, 2, 0", header=TRUE)


library(qdap)
dat <- x[, -1]
row.names(dat) <- x[, 1]
your_tdm <- tdm(as.wfm(dat))

tm::inspect(your_tdm)

## > tm::inspect(your_tdm)
## A term-document matrix (3 terms, 5 documents)
## 
## Non-/sparse entries: 6/9
## Sparsity           : 60%
## Maximal term length: 7 
## Weighting          : term frequency (tf)
## 
##          Docs
## Terms     doc1 doc2 doc3 doc4 doc5
##   main       2    0    3    0    0
##   origin     0    0    1    2    0
##   virtual    4    0    0    0    1

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM