如何正確地將.txt文件加載到R中的Vcorpus中？

Question

所有。 我想分析R中幾個.txt文件的內容。導入它們時遇到問題。 這是我的代碼（data / txt / 2012 /目錄中有238個.txt文件）：

library(tm)   
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

現在，如果我在文檔中查看其Vcorpus，它具有238個文檔，如預期的那樣：

> docs
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 238

這是我很難理解發生了什么的地方：

> docs[1]
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 1

> docs[[1]]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

我的看法是，Vcorpus有兩個級別，第一個包含所有238個文檔，第二個每個包含一個文檔。 我只想擁有一個具有238個文檔的Vcorpus，然后是PlainTextDocument，預期的輸出將是（注意，我僅使用[1]而不是[[1]]來獲取PlainTextDocument）：

> docs[1]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

有沒有一種方法可以將.txt文件加載到所需格式的Vcorpus中？ 還是我應該使用現在加載的方式？

非常感謝。 干杯。

Answer 1

在我看來，您已經正確加載了語料庫。

tm包的簡介文檔說，您可以使用writeLines(as.character(docs[[4]]) ）獲得文檔4的文本表示形式。

您還可以使用content(docs[[4]]) 。

如何正確地將.txt文件加載到R中的Vcorpus中？

問題描述

1 個解決方案

解決方案1
1 已采納 2016-01-15 08:21:34

如何正確地將.txt文件加載到R中的Vcorpus中？

問題描述

1 個解決方案

解決方案1 1 已采納 2016-01-15 08:21:34

解決方案1
1 已采納 2016-01-15 08:21:34