[英]R tm package DataframeSource import
將CSV讀取到R中,並希望使用tm軟件包從中生成一個語料庫,但沒有獲得預期的結果。 目前,當我讀取CSV文本,然后檢查語料庫時,數據全為數字。 (我僅包括前三列data
以保護隱私;檢查結果中顯示了九列。)
library(tm)
data <- read.csv("filename.csv")
head(data)
Directory.Code First.Name Last.Name
1 SCA0025 Nbcde Cdbaace
2 SCA0025 AJCocei aiceice
3 SCA0025 aceca Ac;eice
4 SCA0025 Acoicm aie;cee
5 SCA0025 acei aciomac
6 SCA0025 caeij CIMCEv
data.corp <- corpus(DataframeSource,data)
inspect(data.corp[1])
A corpus with 1 text document
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
create_date creator
Available variables in the data frame are:
MetaID
$`1`
16
2195
6655
6613
1
5
9757
1
1
如果它有助於了解目的:我試圖讀取名稱和未歸一化的職務/說明的csv,然后將其與類別的已知職務/說明進行比較。 現在,我輸入了這個內容,我意識到這個csv將是我的測試/預測數據,但是我仍然想從具有名稱為KnownJobTitle,Description的csv構建一個語料庫。
這個問題的目的是將CSV成功讀入語料庫,但我也想知道是否建議將tm軟件包用於2種以上的分類,和/或是否還有其他更適合此任務的軟件包。
我收到類似的錯誤。 這是因為從csv讀取的文本字段是分類的,而不是char。 您需要先使用以下方法將其轉換為字符:
data <- data.frame(lapply(data, as.character), stringsAsFactors=FALSE)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.