繁体   English   中英

删除文本语料库中的字符

[英]Remove chararcters in text corpus

我正在分析电子邮件的语料库。 有些电子邮件包含URL。 当我从tm库应用removePunctuation函数时,我得到httpwww ,然后丢失了网址信息。 我想什么做的,是取代"://"" "在所有的语料。 我尝试了gsub ,但是后来我的语料库的数据类型发生了变化,因此我无法继续使用tm包对其进行处理。

这是一个例子:

如您所见, gsub将语料库的类更改为字符数组,从而导致tm_map失败。

> corpus
# A corpus with 4257 text documents
> corpus1 <- gsub("http://","http ",corpus)
> class(corpus1)
# [1] "character"
> class(corpus)
# [1] "VCorpus" "Corpus"  "list"   
> cleanSW <- tm_map(corpus1,removeWords, stopwords("english"))
# Error in UseMethod("tm_map", x) : 
# no applicable method for 'tm_map' applied to an object of class "character"
> cleanSW <- tm_map(corpus,removeWords, stopwords("english"))
> cleanSW
# A corpus with 4257 text documents

我该如何绕过? 也许有一种方法可以将其从字符数组转换回语料库?

在这里找到了解决此问题的方法: 使用tm()从R中的语料库中删除非英语文本 ,语料库(VectorSource(dat1))为我工作。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM