[英]Unexpected result using the stemDocument function from the tm (text mining) R package
[英]stemDocument R text mining
我的數據是一個txt文件,如下所示:
單詞number_doc
覆蓋1
客戶1
商店1
破壞1
價格2
庫存2
經濟學2
文件的編號被排序(從最小到最大)。 現在,我希望每個文檔都屬於該文檔的所有單詞。 現在它們位於一列中,但是我還是想要textDocument中的單詞(來自軟件包tm,因為它對於該軟件包中的某些功能是必要的)。 我這樣做如下:
data <- read.table("poging.txt", header = TRUE)
data
doc <- c()
#I paste all the words from a document together:
doc[1] <- paste(data[1:4,1], collapse = ' ')
doc[2] <- paste(data[1:4,1], collapse = ' ')
#Make a data.frame of it
doc_df <- data.frame(docs = doc, row.names = 1:2)
#Install package
install.packages("tm")
library(tm)
#Make a Dataframesource of it so that each row is seen as a document
ds <- DataframeSource(doc_df)
inspect(VCorpus(ds))
#Now I want to stem for example document number 1
stemDocument(ds[[1]])
但是通過使用ds[[1]]
作為參數,它不起作用。 他找不到文件編號1。有人可以幫助我嗎?
在軟件包tm
的示例中,他們使用crude
數據。 我希望我的數據與crude
數據的格式相同。
絲絲
stemDocument()
用於TextDocument,而不是DataSource。 您想使用數據源創建一個語料庫,然后可以從那里提取文檔。
ds <- DataframeSource(doc_df)
corpus <- VCorpus(ds)
stemDocument(corpus[[1]])
請注意, stemDocument
將返回一個新文檔,並且不會永久更新語料庫。 因此,如果您希望對輸出執行任何操作,請確保將其保存在某處。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.