[英]How can I solve this R error message relating to atomic vectors?
我在RStudio
使用R
,我运行以下代码来对一组非结构化文本执行情感分析。 由于一堆文本包含一些无效字符(由表情符号和其他拼写错误引起),我想在继续分析之前删除它们。
我的R代码(摘录)如下:
setwd("E:/sentiment")
doc1=read.csv("book1.csv", stringsAsFactors = FALSE, header = TRUE)
# replace specific characters in doc1
doc1<-gsub("[^\x01-\x7F]", "", doc1)
library(tm)
#Build Corpus
corpus<- iconv(doc1$Review.Text, to = 'utf-8')
corpus<- Corpus(VectorSource(corpus))
当我到达这行代码corpus<- iconv(doc1$Review.Text, to = 'utf-8')
时,我收到以下错误消息:
Error in doc1$Review.Text : $ operator is invalid for atomic vectors
我看了下面的StackOverflow
问题:
在运行tm软件包之前,我还尝试过以下方法来清理文本,但是我收到了同样的错误: doc1<-iconv(doc1, "latin1", "ASCII", sub="")
我该如何解决这个问题?
同
doc1<-gsub("[^\x01-\x7F]", "", doc1)
你覆盖了对象doc1
,从而不是数据帧而是字符向量; 看到:
doc1 <- gsub("[^\x01-\x7F]", "", iris)
str(doc1)
现在清楚了
doc1$Species
产生错误。
最终你想做:
doc1$Review.Text <- gsub("[^\x01-\x7F]", "", doc1$Review.Text)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.