在文本挖掘中將TDM CSV文件轉換為語料庫格式

Question

我正在使用tm包在R中進行文本挖掘。我執行了以下步驟：

將數據導入R系統並創建文本語料庫

dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))

清理數據

mystopwords <- c("through","might","much","had","got","with","these")

cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)

創建術語文檔矩陣

tdm <- TermDocumentMatrix(cleanset)

此時，我將TDM數據導出到csv中，以便對術語進行一些手動清理

write.csv(inspect(tdm), file="tdmfile.csv")

現在的問題是，我想將已清理的tdm csv文件恢復到R系統中，並執行進一步的文本分析，例如聚類，頻率分析。 但是我無法將csv文件轉換回tm包算法可接受的語料庫格式，因此無法進一步進行文本分析。

如果有人可以幫助我將清除的csv文件轉換為corpus格式（這是tm包的文本分析功能可以接受的格式），那將非常有幫助。

Answer 1

首先將csv讀回R

df<-read.csv("tdmfile.csv")

然后將向量（由列名稱引用）轉換為語料庫

corpus<-Corpus(VectorSource(df$column))

如果上述方法不起作用，請嘗試在語料庫之前將df轉換為utf-8

convert <- iconv(df,to="utf-8-mac")

Answer 2

您正在使用關鍵字Dataorg ...但是我在代碼中沒有看到您提到它的任何地方....如果您想將csv文件轉換為Corpus格式，請點擊此鏈接
來自CSV文件的R文本挖掘文檔（每個文檔一行）

在文本挖掘中將TDM CSV文件轉換為語料庫格式

問題描述

2 個解決方案

解決方案1
0 2016-02-03 00:14:44

解決方案2
-1 2014-11-19 13:19:27

在文本挖掘中將TDM CSV文件轉換為語料庫格式

問題描述

2 個解決方案

解決方案1 0 2016-02-03 00:14:44

解決方案2 -1 2014-11-19 13:19:27

解決方案1
0 2016-02-03 00:14:44

解決方案2
-1 2014-11-19 13:19:27