stemDocument R文本挖掘

Question

我的數據是一個txt文件，如下所示：
單詞number_doc
覆蓋1
客戶1
商店1
破壞1
價格2
庫存2
經濟學2

文件的編號被排序（從最小到最大）。 現在，我希望每個文檔都屬於該文檔的所有單詞。 現在它們位於一列中，但是我還是想要textDocument中的單詞（來自軟件包tm，因為它對於該軟件包中的某些功能是必要的）。 我這樣做如下：

 data <- read.table("poging.txt", header = TRUE)
 data

 doc <- c()
 #I paste all the words from a document together:
 doc[1] <- paste(data[1:4,1], collapse = ' ')
 doc[2] <- paste(data[1:4,1], collapse = ' ')

 #Make a data.frame of it
 doc_df <- data.frame(docs = doc, row.names = 1:2)

 #Install package
 install.packages("tm")
 library(tm)

 #Make a Dataframesource of it so that each row is seen as a document
 ds <- DataframeSource(doc_df)
 inspect(VCorpus(ds))

 #Now I want to stem for example document number 1
 stemDocument(ds[[1]])

但是通過使用ds[[1]]作為參數，它不起作用。 他找不到文件編號1。有人可以幫助我嗎？

在軟件包tm的示例中，他們使用crude數據。 我希望我的數據與crude數據的格式相同。

絲絲

Answer 1

stemDocument()用於TextDocument，而不是DataSource。 您想使用數據源創建一個語料庫，然后可以從那里提取文檔。

ds <- DataframeSource(doc_df)
corpus <- VCorpus(ds)
stemDocument(corpus[[1]])

請注意， stemDocument將返回一個新文檔，並且不會永久更新語料庫。 因此，如果您希望對輸出執行任何操作，請確保將其保存在某處。

stemDocument R文本挖掘

問題描述

1 個解決方案

解決方案1
0 已采納 2014-09-28 16:06:45

stemDocument R文本挖掘

問題描述

1 個解決方案

解決方案1 0 已采納 2014-09-28 16:06:45

解決方案1
0 已采納 2014-09-28 16:06:45