在文本挖掘中将TDM CSV文件转换为语料库格式

Question

我正在使用tm包在R中进行文本挖掘。我执行了以下步骤：

将数据导入R系统并创建文本语料库

dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))

清理数据

mystopwords <- c("through","might","much","had","got","with","these")

cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)

创建术语文档矩阵

tdm <- TermDocumentMatrix(cleanset)

此时，我将TDM数据导出到csv中，以便对术语进行一些手动清理

write.csv(inspect(tdm), file="tdmfile.csv")

现在的问题是，我想将已清理的tdm csv文件恢复到R系统中，并执行进一步的文本分析，例如聚类，频率分析。 但是我无法将csv文件转换回tm包算法可接受的语料库格式，因此无法进一步进行文本分析。

如果有人可以帮助我将清除的csv文件转换为corpus格式（这是tm包的文本分析功能可以接受的格式），那将非常有帮助。

Answer 1

首先将csv读回R

df<-read.csv("tdmfile.csv")

然后将向量（由列名称引用）转换为语料库

corpus<-Corpus(VectorSource(df$column))

如果上述方法不起作用，请尝试在语料库之前将df转换为utf-8

convert <- iconv(df,to="utf-8-mac")

Answer 2

您正在使用关键字Dataorg ...但是我在代码中没有看到您提到它的任何地方....如果您想将csv文件转换为Corpus格式，请点击此链接
来自CSV文件的R文本挖掘文档（每个文档一行）

在文本挖掘中将TDM CSV文件转换为语料库格式

问题描述

2 个解决方案

解决方案1
0 2016-02-03 00:14:44

解决方案2
-1 2014-11-19 13:19:27

在文本挖掘中将TDM CSV文件转换为语料库格式

问题描述

2 个解决方案

解决方案1 0 2016-02-03 00:14:44

解决方案2 -1 2014-11-19 13:19:27

解决方案1
0 2016-02-03 00:14:44

解决方案2
-1 2014-11-19 13:19:27