簡體   English   中英

在文本挖掘中將TDM CSV文件轉換為語料庫格式

[英]Convert TDM CSV file into Corpus Format in Text Mining

我正在使用tm包在R中進行文本挖掘。我執行了以下步驟:

將數據導入R系統並創建文本語料庫

dataorg <- read.csv("Report_2014.csv")
corpus <- Corpus(VectorSource(data$Resolution))

清理數據

mystopwords <- c("through","might","much","had","got","with","these")

cleanset <- tm_map(corpus, removeWords, mystopwords)
cleanset <- tm_map(cleanset, tolower)
cleanset <- tm_map(cleanset, removePunctuation)
cleanset <- tm_map(cleanset, removeNumbers)

創建術語文檔矩陣

tdm <- TermDocumentMatrix(cleanset)

此時,我將TDM數據導出到csv中,以便對術語進行一些手動清理

write.csv(inspect(tdm), file="tdmfile.csv")

現在的問題是,我想將已清理的tdm csv文件恢復到R系統中,並執行進一步的文本分析,例如聚類,頻率分析。 但是我無法將csv文件轉換回tm包算法可接受的語料庫格式,因此無法進一步進行文本分析。

如果有人可以幫助我將清除的csv文件轉換為corpus格式(這是tm包的文本分析功能可以接受的格式),那將非常有幫助。

首先將csv讀回R

df<-read.csv("tdmfile.csv")

然后將向量(由列名稱引用)轉換為語料庫

corpus<-Corpus(VectorSource(df$column))

如果上述方法不起作用,請嘗試在語料庫之前將df轉換為utf-8

convert <- iconv(df,to="utf-8-mac")

您正在使用關鍵字Dataorg ...但是我在代碼中沒有看到您提到它的任何地方....如果您想將csv文件轉換為Corpus格式,請點擊此鏈接
來自CSV文件的R文本挖掘文檔(每個文檔一行)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM