從 R 中的字符串中刪除特殊/非英文字符

Question

我想對從 Facebook 收集的數據進行一些文本挖掘分析，但是文本中的特殊/非英文字符存在一些問題。 數據如下：

我想要的是刪除包含這些“奇怪”字符的單詞。 我試圖通過使用來做到這一點

str_replace_all(text, "[^[:alnum:]]", " ")

但這對我的情況不起作用。 任何想法？

Answer 1

此類任務的一般答案是指定要保留的字符。 看起來:alnum:由希臘字母和帶重音符號的字母組成。

也許這個正則表達式更合適：

str_remove_all(x, "[^[\\da-zA-Z ]]")

[1] ""

[1] "I expect a return to normalcyThat is Bidens great"

[1] "Im facing a prison sentence"

我剛剛用a-zA-Z替換了 alpha 快捷方式。 我添加了一個空格並改用str_remove_all function。 添加您想要保留的任何字符。