[英]How to convert TDM csv file into Term Docment Matrix by tm package in R?
我在csv文件中有术语文档矩阵。 例如,
, doc1, doc2, doc3, doc4, doc5
main , 2, 0, 3, 0, 0
virtual, 4, 0, 0, 0, 1
origin , 0, 0, 1, 2, 0
....
如何将其转换为tm包中的术语文档矩阵?
我认为TermDocumentMatrix()
函数的术语文档矩阵可以从文档中的句子(单词列表)创建。
但是我已经有了术语文档矩阵,我想在tm包中导入和使用它。
请让我知道方法。
这是一种方法(但是tm
包中可能有直接方法):
x <- read.csv(text=" , doc1, doc2, doc3, doc4, doc5
main , 2, 0, 3, 0, 0
virtual, 4, 0, 0, 0, 1
origin , 0, 0, 1, 2, 0", header=TRUE)
library(qdap)
dat <- x[, -1]
row.names(dat) <- x[, 1]
your_tdm <- tdm(as.wfm(dat))
tm::inspect(your_tdm)
## > tm::inspect(your_tdm)
## A term-document matrix (3 terms, 5 documents)
##
## Non-/sparse entries: 6/9
## Sparsity : 60%
## Maximal term length: 7
## Weighting : term frequency (tf)
##
## Docs
## Terms doc1 doc2 doc3 doc4 doc5
## main 2 0 3 0 0
## origin 0 0 1 2 0
## virtual 4 0 0 0 1
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.