[英]How to convert vector of characters to corpus input for the DocumentTermMatrix function from tm package in R?
I am new to tm
package. 我是
tm
包的新手。 I'd like to use DocumentTermMatrix
function to create DT- Matrix for further text-mining analysis but I am able to create propoer input for that function. 我想使用
DocumentTermMatrix
函数创建DT-Matrix以进行进一步的文本挖掘分析,但我能够为该函数创建propoer输入。
I have my data input so far in a format of a character vector like this and tried to use as.VCorpus
function but it look's like it does not work. 到目前为止,我的数据输入是以这样的字符向量的形式,并尝试使用
as.VCorpus
函数,但它看起来像是不起作用。 Code below: 代码如下:
> x <- as.VCorpus(sekcja_link$slowa_kluczowe_2)
Error in UseMethod("as.VCorpus") :
no applicable method for 'as.VCorpus' applied to an object of class "character"
> head(sekcja_link$slowa_kluczowe_2)
[1] "mandat policja zima kara"
[2] "sprzedaż samochodów w 2014 rok wzrost sprzedaży utrata prawa jazda wyprzedzać trzeci poduszka powietrzny"
[3] "kobieta 40stce powinien ruszać walczyć życie ewa minge kasia czaplejewicz fitness"
[4] "e booki książka elektroniczny papierowy czytnik amazon kindle książki rynek booków handel i usługi"
[5] "gra monopoly warszawa miasto plebiscyt samorząd i administracja"
[6] "rachunek za ogrzewać niższe koszt ogrzewać ciepło wiek dom mieszkać nieruchomości"
>
If you got a character vector, you can use VectorSource
like this: 如果你有一个字符向量,你可以像这样使用
VectorSource
:
txt <- c("Hello to you.", "Blah me, too.")
library(tm)
corp <- Corpus(VectorSource(txt))
dtm <- DocumentTermMatrix(corp)
# inspect(dtm)
# <<DocumentTermMatrix (documents: 2, terms: 5)>>
# Non-/sparse entries: 5/5
# Sparsity : 50%
# Maximal term length: 5
# Weighting : term frequency (tf)
#
# Terms
# Docs blah hello me, too. you.
# 1 0 1 0 0 1
# 2 1 0 1 1 0
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.