从 R 中的字符串中删除特殊/非英文字符

Question

我想对从 Facebook 收集的数据进行一些文本挖掘分析，但是文本中的特殊/非英文字符存在一些问题。 数据如下：

我想要的是删除包含这些“奇怪”字符的单词。 我试图通过使用来做到这一点

str_replace_all(text, "[^[:alnum:]]", " ")

但这对我的情况不起作用。 任何想法？

Answer 1

此类任务的一般答案是指定要保留的字符。 看起来:alnum:由希腊字母和带重音符号的字母组成。

也许这个正则表达式更合适：

str_remove_all(x, "[^[\\da-zA-Z ]]")

[1] ""

[1] "I expect a return to normalcyThat is Bidens great"

[1] "Im facing a prison sentence"

我刚刚用a-zA-Z替换了 alpha 快捷方式。 我添加了一个空格并改用str_remove_all function。 添加您想要保留的任何字符。