[英]remove special/non-English characters from string in R
我想對從 Facebook 收集的數據進行一些文本挖掘分析,但是文本中的特殊/非英文字符存在一些問題。 數據如下:
doc_id | 文本 |
---|---|
001 | 'ð~ð—¶ð~€ ð~ð—µð—² ð~€ð—²ð—®ð~€ |
002 | 我期待恢復正常……這是拜登的偉大之處 |
003 | “我正面臨着牢獄之災 |
我想要的是刪除包含這些“奇怪”字符的單詞。 我試圖通過使用來做到這一點
str_replace_all(text, "[^[:alnum:]]", " ")
但這對我的情況不起作用。 任何想法?
此類任務的一般答案是指定要保留的字符。 看起來:alnum:
由希臘字母和帶重音符號的字母組成。
也許這個正則表達式更合適:
str_remove_all(x, "[^[\\da-zA-Z ]]")
[1] ""
[1] "I expect a return to normalcyThat is Bidens great"
[1] "Im facing a prison sentence"
我剛剛用a-zA-Z
替換了 alpha 快捷方式。 我添加了一個空格並改用str_remove_all
function。 添加您想要保留的任何字符。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.