[英]remove special/non-English characters from string in R
我想对从 Facebook 收集的数据进行一些文本挖掘分析,但是文本中的特殊/非英文字符存在一些问题。 数据如下:
doc_id | 文本 |
---|---|
001 | 'ð~ð—¶ð~€ ð~ð—µð—² ð~€ð—²ð—®ð~€ |
002 | 我期待恢复正常……这是拜登的伟大之处 |
003 | “我正面临着牢狱之灾 |
我想要的是删除包含这些“奇怪”字符的单词。 我试图通过使用来做到这一点
str_replace_all(text, "[^[:alnum:]]", " ")
但这对我的情况不起作用。 任何想法?
此类任务的一般答案是指定要保留的字符。 看起来:alnum:
由希腊字母和带重音符号的字母组成。
也许这个正则表达式更合适:
str_remove_all(x, "[^[\\da-zA-Z ]]")
[1] ""
[1] "I expect a return to normalcyThat is Bidens great"
[1] "Im facing a prison sentence"
我刚刚用a-zA-Z
替换了 alpha 快捷方式。 我添加了一个空格并改用str_remove_all
function。 添加您想要保留的任何字符。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.