簡體   English   中英

從 R 中的字符串中刪除特殊/非英文字符

[英]remove special/non-English characters from string in R

我想對從 Facebook 收集的數據進行一些文本挖掘分析,但是文本中的特殊/非英文字符存在一些問題。 數據如下:

doc_id 文本
001 'ð~ð—¶ð~€ ð~ð—µð—² ð~€ð—²ð—®ð~€
002 我期待恢復正常……這是拜登的偉大之處
003 “我正面臨着牢獄之災

我想要的是刪除包含這些“奇怪”字符的單詞。 我試圖通過使用來做到這一點

str_replace_all(text, "[^[:alnum:]]", " ")

但這對我的情況不起作用。 任何想法?

此類任務的一般答案是指定要保留的字符。 看起來:alnum:由希臘字母和帶重音符號的字母組成。

也許這個正則表達式更合適:

str_remove_all(x, "[^[\\da-zA-Z ]]")

[1] ""

[1] "I expect a return to normalcyThat is Bidens great"

[1] "Im facing a prison sentence"

我剛剛用a-zA-Z替換了 alpha 快捷方式。 我添加了一個空格並改用str_remove_all function。 添加您想要保留的任何字符。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM