R tm包DataframeSource導入

Question

將CSV讀取到R中，並希望使用tm軟件包從中生成一個語料庫，但沒有獲得預期的結果。 目前，當我讀取CSV文本，然后檢查語料庫時，數據全為數字。 （我僅包括前三列data以保護隱私；檢查結果中顯示了九列。）

library(tm)

data <- read.csv("filename.csv")
head(data)    
  Directory.Code First.Name Last.Name
1        SCA0025     Nbcde    Cdbaace
2        SCA0025   AJCocei    aiceice
3        SCA0025      aceca   Ac;eice
4        SCA0025      Acoicm  aie;cee 
5        SCA0025     acei     aciomac
6        SCA0025       caeij   CIMCEv

data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document

The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 

$`1`
16
2195
6655
6613
1
5
9757
1
1

如果它有助於了解目的：我試圖讀取名稱和未歸一化的職務/說明的csv，然后將其與類別的已知職務/說明進行比較。 現在，我輸入了這個內容，我意識到這個csv將是我的測試/預測數據，但是我仍然想從具有名稱為KnownJobTitle，Description的csv構建一個語料庫。

這個問題的目的是將CSV成功讀入語料庫，但我也想知道是否建議將tm軟件包用於2種以上的分類，和/或是否還有其他更適合此任務的軟件包。

Answer 1

我收到類似的錯誤。 這是因為從csv讀取的文本字段是分類的，而不是char。 您需要先使用以下方法將其轉換為字符：

data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)

R tm包DataframeSource導入

問題描述

1 個解決方案

解決方案1
1 2013-12-30 22:06:12

R tm包DataframeSource導入

問題描述

1 個解決方案

解決方案1 1 2013-12-30 22:06:12

解決方案1
1 2013-12-30 22:06:12