簡體   English   中英

正則表達式在 openrefine 中搜索和替換表情符號

[英]Regex to search and replace emojis in openrefine

我正在處理一個包含大量數據的文件,其中還包括表情符號。 我正在使用 openrefine 來清理數據,但我找不到刪除常見表情符號的捷徑,例如笑臉,這些表情符號包含在數據中很多我嘗試了一些正則表達式,它適用於一些表情符號,但仍然存在。 下面是我在搜索和替換中嘗試的代碼

"[\p{C}]|[\p{So}]|[\u20E3]"

構建一個正則表達式來匹配所有 Unicode 表情符號是非常重要的,但是有一個 Github 存儲庫和一個腳本來構建它基於 Unicode 標准(以及該腳本的輸出)可用在這里:

https://github.com/mathiasbynens/emoji-regex

你能試試這個代碼,用 Jython/Python 代替 Grel 嗎?

import re

def remove_emojis(data):
    emoj = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002500-\U00002BEF"  # chinese char
        u"\U00002702-\U000027B0"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642" 
        u"\u2600-\u2B55"
        u"\u200d"
        u"\u23cf"
        u"\u23e9"
        u"\u231a"
        u"\ufe0f"  # dingbats
        u"\u3030"
                      "]+", re.UNICODE)
    return re.sub(emoj, '', data)

return remove_emojis(value)

截屏

在此處輸入圖片說明

來源

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM