从 UTF-8 格式的字符串中提取双字节字符/子字符串

Question

我正在尝试从字符串中提取表情符号和其他特殊字符以进行进一步处理（例如，字符串包含 '😅' 作为其字符之一）。

但是string.charAt(i)和string.substring(i, i+1)都不适合我。 原始字符串采用 UTF-8 格式，这意味着上述表情符号的转义形式被编码为“\?\?”。 这就是为什么我会收到“？” (\?) 和 '?' (\?) 而不是这个位置，导致它在遍历字符串时位于两个位置。

有没有人有解决这个问题的方法？

Answer 1

感谢 John Kugelman 的帮助。 解决方案现在看起来像这样：

for(int codePoint : codePoints(string)) {

        char[] chars = Character.toChars(codePoint);
        System.out.println(codePoint + " : " + String.copyValueOf(chars));

    }

使用 codePoints(String string) 方法如下所示：

private static Iterable<Integer> codePoints(final String string) {
    return new Iterable<Integer>() {
        public Iterator<Integer> iterator() {
            return new Iterator<Integer>() {
                int nextIndex = 0;

                public boolean hasNext() {
                    return nextIndex < string.length();
                }

                public Integer next() {
                    int result = string.codePointAt(nextIndex);
                    nextIndex += Character.charCount(result);
                    return result;
                }

                public void remove() {
                    throw new UnsupportedOperationException();
                }
            };
        }
    };
}

从 UTF-8 格式的字符串中提取双字节字符/子字符串

问题描述

1 个解决方案

解决方案1
1 已采纳 2015-06-15 06:24:24

从 UTF-8 格式的字符串中提取双字节字符/子字符串

问题描述

1 个解决方案

解决方案1 1 已采纳 2015-06-15 06:24:24

解决方案1
1 已采纳 2015-06-15 06:24:24