繁体   English   中英

语料库无法正确阅读R中的文本

[英]Corpus not properly reading text in R

我正在使用'tm'R包对一小部分推文进行分析。 数据位于一个csv文件中,其中包含一些元数据和tweet本身,如下所示:

2461,1425999216,RT @victoriavaneyk: Bitcoin is being used by African migrant workers to send money home #Bitcoin http://t.co/z0Lkm2ncUw,2.9690174302789387

我将文件读入数据框,并尝试从中构建语料库:

data <- read.csv(file, header=TRUE)
corpus <- Corpus(DataframeSource(data))

数据框似乎完全包含了我所期望的内容,包括鸣叫的文字。 但是当我检查语料库时,似乎所有文本都已被某个整数值代替。 这个整数从哪里来? 为什么该推文的文本丢失了?

> inspect(corpus[1])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
2461
1425999216
2940
2.96901743027894

data <- read.csv(file, header=TRUE, stringsAsFactors=FALSE)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM