繁体 English 中英

文本分析-希望从我的语料库中删除小写单词。我可以使用gsub吗？使用tm_map进行清理

[英]text analysis - looking to remove lowercase words from my corpus. Can I use gsub? Using tm_map to clean-up

原文 2017-10-31 08:20:48 8 2 r/ corpus

我正在寻找一个语料库以查找适当的名称。 我将如何删除所有小写字母的单词？ removeWords？ gsub？

doc.corpus <- tm_map(doc.corpus, removePunctuation)
doc.corpus <- tm_map(doc.corpus, removeNumbers)
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("SMART"))

doc.corpus <-tm_map(doc.corpus, removeWords, lower)  ****something like this?****

inspect(doc.corpus[8])

2 个解决方案

尝试以下方法。 根据所需的输出，您可能必须重新排列替换项的顺序。 在下面的示例中，例如，从缩写“ US”中删除了点，从而使“ US”只有两个单独的字母。 如果要保留这样的缩写，则必须调整正则表达式。

library(tm)
data(crude)
corp <- crude

corp <- tm_map(corp, content_transformer(gsub), pattern="(?<=\\s|^)([a-z]+)(?=\\s|$|\\W)", replacement = " ", perl=T)
corp <- tm_map(corp, content_transformer(gsub), pattern="\\d|\\W", replacement = " ", perl=T)
corp <- tm_map(corp, content_transformer(gsub), pattern="\\s+", replacement = " ", perl=T)

inspect(corp[[1]])

teststring <- "aaa Bbb ccc Ddd eee Fff"
trimws(gsub("\\b[a-z]+\\b", "", teststring))
#[1] "Bbb  Ddd  Fff"

上面的gsub函数删除所有小写单词。 因此，您可以在代码中使用此gsub函数，如下所示：

removeLowerCase <- function(x) trimws(gsub("\\b[a-z]+\\b", "", x))
doc.corpus <- tm_map(doc.corpus, content_transformer(removeLowerCase))

tm_map和stopwords无法从R中创建的语料库中删除不需要的单词

[英]tm_map and stopwords failed to remove unwanted words from the corpus created in R

Big Text Corpus打破了tm_map

[英]Big Text Corpus breaks tm_map

如何删除 tm_map 中的“英文”字样？

[英]How to remove 'English' words in tm_map?

tm_map(gsub...) 无法替换单词

[英]tm_map(gsub...) fails to replace words

R tm使用gsub替换语料库中的单词

[英]R tm substitute words in Corpus using gsub

使用 tm_map(..., tolower) 将文本转换为小写时出错

[英]Error converting text to lowercase with tm_map(..., tolower)

我无法使用tm_map删除•和其他一些特殊字符，例如'-

[英]I can't remove • and some other special characters such as '- using tm_map

tm语料库：tm_map函数不会更改语料库

[英]tm Corpus: tm_map function does not change the corpus

tm_map删除包含我的停用词的单词？

[英]tm_map to removewords containing my stop words?

如何使用tm_map向tm Corpus对象添加元数据

[英]How to add metadata to tm Corpus object with tm_map

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 tm_map和stopwords无法从R中创建的语料库中删除不需要的单词 Big Text Corpus打破了tm_map 如何删除 tm_map 中的“英文”字样？ tm_map(gsub...) 无法替换单词 R tm使用gsub替换语料库中的单词使用 tm_map(..., tolower) 将文本转换为小写时出错我无法使用tm_map删除•和其他一些特殊字符，例如'- tm语料库：tm_map函数不会更改语料库 tm_map删除包含我的停用词的单词？如何使用tm_map向tm Corpus对象添加元数据

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM