簡體   English   中英

stemDocument R文本挖掘

[英]stemDocument R text mining

我的數據是一個txt文件,如下所示:
單詞number_doc
覆蓋1
客戶1
商店1
破壞1
價格2
庫存2
經濟學2

文件的編號被排序(從最小到最大)。 現在,我希望每個文檔都屬於該文檔的所有單詞。 現在它們位於一列中,但是我還是想要textDocument中的單詞(來自軟件包tm,因為它對於該軟件包中的某些功能是必要的)。 我這樣做如下:

 data <- read.table("poging.txt", header = TRUE)
 data

 doc <- c()
 #I paste all the words from a document together:
 doc[1] <- paste(data[1:4,1], collapse = ' ')
 doc[2] <- paste(data[1:4,1], collapse = ' ')

 #Make a data.frame of it
 doc_df <- data.frame(docs = doc, row.names = 1:2)

 #Install package
 install.packages("tm")
 library(tm)

 #Make a Dataframesource of it so that each row is seen as a document
 ds <- DataframeSource(doc_df)
 inspect(VCorpus(ds))

 #Now I want to stem for example document number 1
 stemDocument(ds[[1]])

但是通過使用ds[[1]]作為參數,它不起作用。 他找不到文件編號1。有人可以幫助我嗎?

在軟件包tm的示例中,他們使用crude數據。 我希望我的數據與crude數據的格式相同。

絲絲

stemDocument()用於TextDocument,而不是DataSource。 您想使用數據源創建一個語料庫,然后可以從那里提取文檔。

ds <- DataframeSource(doc_df)
corpus <- VCorpus(ds)
stemDocument(corpus[[1]])

請注意, stemDocument將返回一個新文檔,並且不會永久更新語料庫。 因此,如果您希望對輸出執行任何操作,請確保將其保存在某處。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM