繁体   English   中英

如何解决与原子向量有关的R错误消息?

[英]How can I solve this R error message relating to atomic vectors?

我在RStudio使用R ,我运行以下代码来对一组非结构化文本执行情感分析。 由于一堆文本包含一些无效字符(由表情符号和其他拼写错误引起),我想在继续分析之前删除它们。

我的R代码(摘录)如下:

setwd("E:/sentiment")

doc1=read.csv("book1.csv", stringsAsFactors = FALSE, header = TRUE)

# replace specific characters in doc1
  doc1<-gsub("[^\x01-\x7F]", "", doc1)

library(tm)

#Build Corpus
corpus<- iconv(doc1$Review.Text, to = 'utf-8')
corpus<- Corpus(VectorSource(corpus))

当我到达这行代码corpus<- iconv(doc1$Review.Text, to = 'utf-8')时,我收到以下错误消息:

Error in doc1$Review.Text : $ operator is invalid for atomic vectors

我看了下面的StackOverflow问题:

使用tm包删除R中的表情符号

替换字符串中的特定字符

在运行tm软件包之前,我还尝试过以下方法来清理文本,但是我收到了同样的错误: doc1<-iconv(doc1, "latin1", "ASCII", sub="")

我该如何解决这个问题?

doc1<-gsub("[^\x01-\x7F]", "", doc1)

你覆盖了对象doc1 ,从而不是数据帧而是字符向量; 看到:

doc1 <- gsub("[^\x01-\x7F]", "", iris)
str(doc1)

现在清楚了

doc1$Species

产生错误。
最终你想做:

doc1$Review.Text <- gsub("[^\x01-\x7F]", "", doc1$Review.Text)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM