语料库无法正确阅读R中的文本

Question

我正在使用'tm'R包对一小部分推文进行分析。 数据位于一个csv文件中，其中包含一些元数据和tweet本身，如下所示：

2461,1425999216,RT @victoriavaneyk: Bitcoin is being used by African migrant workers to send money home #Bitcoin http://t.co/z0Lkm2ncUw,2.9690174302789387

我将文件读入数据框，并尝试从中构建语料库：

data <- read.csv(file, header=TRUE)
corpus <- Corpus(DataframeSource(data))

数据框似乎完全包含了我所期望的内容，包括鸣叫的文字。 但是当我检查语料库时，似乎所有文本都已被某个整数值代替。 这个整数从哪里来？ 为什么该推文的文本丢失了？

> inspect(corpus[1])
<<VCorpus (documents: 1, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
2461
1425999216
2940
2.96901743027894

Answer 1

data <- read.csv(file, header=TRUE, stringsAsFactors=FALSE)

语料库无法正确阅读R中的文本

问题描述

1 个解决方案

解决方案1
0 2015-04-21 22:29:26

语料库无法正确阅读R中的文本

问题描述

1 个解决方案

解决方案1 0 2015-04-21 22:29:26

解决方案1
0 2015-04-21 22:29:26