将非英语字符串插入UTF-8 Oracle数据库

Question

我有一个Oracle，它的编码是UTF-8。 当我在其中插入一些非英语字符串时，我会得到ORA-12899。 我认为原因是一些非英语的UTF-8系统需要3个字节。

最简单的解决方案是延长Oracle的长度。 我想修剪字符串，但找不到单个解决方案来修剪字符串。 有什么建议吗？ 我试图获取字节长度，但该值不适用于UTF-8。

Answer 1

使用lengthb()获得以字节为单位的长度。 截断字符串，直到适合列：

while lengthb(x) > column_length_in_bytes loop
  x := substr(x, 1, length(x)-1);
end loop;

Answer 2

public static String truncatedUTF8( String input, int maxBytesInUTF8 ) {
    if( input.length() * 4 <= maxBytesInUTF8 ) {
        return input;
    }
    int max = 0, i;
    boolean lastSurrogate = false;
    for( i = 0; i < input.length() && max <= maxBytesInUTF8; ++i ) {
        int cc = Character.codePointAt(input, i);
        lastSurrogate = false;
        if (cc <= 0x7F) {
            max++; 
        } else if (cc <= 0x7FF) {
            max += 2; 
        } else if (cc <= 0xFFFF) {
            max += 3;
        } else if (cc <= 0x10FFFF) {
            lastSurrogate = true;
            max += 4;
            i++;
        }    
    }

    if( max < maxBytesInUTF8 ) {
        return input;
    }
    if( max > maxBytesInUTF8) {
        i--;
        if( lastSurrogate ) i--;
    }

    if( i - 1 >= input.length() && 
        !Character.isSurrogatePair(input.charAt(i-2), input.charAt(i-1)) &&
        Character.isSurrogate(input.charAt(i-1))) {
        i--;
    }

    return input.substring(0, i);
}

System.out.println(truncatedUTF8("äää", 5));
//"ää" because "äää" takes 6 bytes and "ää" takes 4

将非英语字符串插入UTF-8 Oracle数据库

问题描述

2 个解决方案

解决方案1
1 已采纳 2013-04-10 15:27:37

解决方案2
0 2013-04-10 16:53:33

将非英语字符串插入UTF-8 Oracle数据库

问题描述

2 个解决方案

解决方案1 1 已采纳 2013-04-10 15:27:37

解决方案2 0 2013-04-10 16:53:33

解决方案1
1 已采纳 2013-04-10 15:27:37

解决方案2
0 2013-04-10 16:53:33