繁体   English   中英

如何从字符串中删除所有没有可打印的字符+表情符号?

[英]How to remove all no printable characters + Emoji from a string?

我想从我的字符串中删除所有不可打印的字符+所有表情符号。

我尝试了一下,但是对于Emoji来说无法正常工作:

public static String removeAllNoAsciiChars(String str) {
        if (!TextUtils.isEmpty(str)) {
            str = str.replaceAll("\\p{C}", "");
        }
        return str;
    }

例子:

“ L'alphabet estgénial😀!”

预期的最终结果是:“ L'alphabet estgénial!”

“Çaestce ducœur❤️:)!”

预期的最终结果是:“Çaestestcour” :)!

\\\\p{C}正则表达式负责所有不可打印的字符。 请注意,这包括选项卡和换行符。

至于表情符号字符,则有点复杂。 您可以用Unicode匹配较新的Emoji字符,即Unicode块“ Emoticons” (U + 1F600到U + 1F64F),但这并不是所有的Emoji字符,例如❤'HEAVY BLACK HEART' (U + 2764)不是在那个范围内。

如果查看那些Emoji字符,例如😀'GRINNING FACE' (U + 1F600),您会看到它属于Unicode类别“ Symbol,Other [So] ”,它由5855个字符组成。 如果您可以删除所有这些内容,那肯定是最简单的解决方案。

您的文本包含红色的心(❤️),而不是黑色的心(❤),在Unicode中,通过在黑色的心之后添加变体选择器来完成,例如,在这种情况下为'VARIATION SELECTOR-16' (U + FE0F) 。 有256个变体选择器,它们都在Mark,Nonspacing [Mn]类别中,但是您可能不想删除所有的1763个变体选择器,因此需要删除2个范围的变体选择器,即U + FE00到U + FE0F(选择器1-16)和U + E0100至U + E01EF(选择器17-256)。

之后,您可能会或可能不想将连续的空格减少到一个空格。

str = str.replaceAll("[\\p{C}\\p{So}\uFE00-\uFE0F\\x{E0100}-\\x{E01EF}]+", "")
         .replaceAll(" {2,}", " ");

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM