簡體   English   中英

如何正確地將.txt文件加載到R中的Vcorpus中?

[英]How to correctly Load .txt files into Vcorpus in R?

所有。 我想分析R中幾個.txt文件的內容。導入它們時遇到問題。 這是我的代碼(data / txt / 2012 /目錄中有238個.txt文件):

library(tm)   
cname <- file.path("../data", "txt", "2012")
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

現在,如果我在文檔中查看其Vcorpus,它具有238個文檔,如預期的那樣:

> docs
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 238

這是我很難理解發生了什么的地方:

> docs[1]
    <<VCorpus>>
    Metadata:  corpus specific: 0, document level (indexed): 0
    Content:  documents: 1

> docs[[1]]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

我的看法是,Vcorpus有兩個級別,第一個包含所有238個文檔,第二個每個包含一個文檔。 我只想擁有一個具有238個文檔的Vcorpus,然后是PlainTextDocument,預期的輸出將是(注意,我僅使用[1]而不是[[1]]來獲取PlainTextDocument):

> docs[1]
   <<PlainTextDocument>>
   Metadata:  7
   Content:  chars: 2156

有沒有一種方法可以將.txt文件加載到所需格式的Vcorpus中? 還是我應該使用現在加載的方式?

非常感謝。 干杯。

在我看來,您已經正確加載了語料庫。

tm包的簡介文檔說,您可以使用writeLines(as.character(docs[[4]]) )獲得文檔4的文本表示形式。

您還可以使用content(docs[[4]])

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM