簡體   English   中英

R tm包DataframeSource導入

[英]R tm package DataframeSource import

將CSV讀取到R中,並希望使用tm軟件包從中生成一個語料庫,但沒有獲得預期的結果。 目前,當我讀取CSV文本,然后檢查語料庫時,數據全為數字。 (我僅包括前三列data以保護隱私;檢查結果中顯示了九列。)

library(tm)

data <- read.csv("filename.csv")
head(data)    
  Directory.Code First.Name Last.Name
1        SCA0025     Nbcde    Cdbaace
2        SCA0025   AJCocei    aiceice
3        SCA0025      aceca   Ac;eice
4        SCA0025      Acoicm  aie;cee 
5        SCA0025     acei     aciomac
6        SCA0025       caeij   CIMCEv

data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

$`1`
16
2195
6655
6613
1
5
9757
1
1

如果它有助於了解目的:我試圖讀取名稱和未歸一化的職務/說明的csv,然后將其與類別的已知職務/說明進行比較。 現在,我輸入了這個內容,我意識到這個csv將是我的測試/預測數據,但是我仍然想從具有名稱為KnownJobTitle,Description的csv構建一個語料庫。

這個問題的目的是將CSV成功讀入語料庫,但我也想知道是否建議將tm軟件包用於2種以上的分類,和/或是否還有其他更適合此任務的軟件包。

我收到類似的錯誤。 這是因為從csv讀取的文本字段是分類的,而不是char。 您需要先使用以下方法將其轉換為字符:

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM