繁体   English   中英

如何检测编码不匹配

[英]How to detect encoding mismatch

我有一堆旧的 AES 加密字符串,大致如下加密:

  1. 使用 ISO-8859-1 编码将字符串转换为字节
  2. 字节使用 AES 加密
  3. 结果转换为 BASE64 编码的字符数组

现在我想将新值的编码更改为 UTF8(例如,'€' 不适用于 ISO-8859-1)。 如果我尝试使用 UTF-8 编码解密旧的 ISO-8859-1 编码值,这当然会导致问题:

org.junit.ComparisonFailure: expected:<!#[¤%&/()=?^*ÄÖÖÅ_:;>½§@${[]}<|'äöå-.,+´¨]'-Lorem ipsum dolor ...> but was:<!#[�%&/()=?^*����_:;>��@${[]}<|'���-.,+��]'-Lorem ipsum dolor ...>

我正在考虑为此创建一些自动编码后备。

所以主要的问题是检查解密的 char 数组中的“�”字符是否足以找出编码不匹配? 比较时声明“�”符号的“正确”方式是什么?

if (new String(utf8decryptedCharArray).contains("�")) {
    // Revert to doing the decrypting with ISO-8859-1
    decryptAsISO...
}

解密时,您会取回原始字节序列(步骤 1 的结果),然后您只能根据 ISO-8859-1 或 UTF-8 编码猜测这些字节表示字符。

从一个字节序列中,没有办法清楚地说明它是如何解释的。

一些想法:

  • 您可以迁移所有旧的加密字符串(解密、使用 ISO-8859-1 解码为字符串、使用 UTF-8 编码为字节数组、加密)。 然后问题就永远解决了。
  • 可以尝试解码两个版本的字节数组,看一个版本是否非法,或者两个版本是否相等,如果仍然模棱两可,则根据预期字符取概率较高的那个。 我不建议 go 那样做,因为它需要大量的工作并且仍然存在一些错误的可能性。
  • 对于新条目,您可以在字符串/字节序列之前添加一些未出现在 ISO-8859-1 文本中的标记。 例如,有些人按照惯例在 UTF-8 编码文件的开头添加字节顺序标记。 尽管生成的字节( EF BB BF )在 ISO-8859-1 中并不是严格非法的(读作 ),但它们极不可能。 然后,当您的解密字节以EF BB BF开头时,使用 UTF-8 解码为字符串,否则使用 ISO-8859-1。 尽管如此,仍然存在非零错误概率。

如果可能的话,我会使用 go 来迁移现有条目。 否则,您将不得不在您的代码库中永远使用“旧格式兼容性的东西”,并且仍然不能绝对保证正确的行为。

将字节解码为文本时,不要依赖 字符来检测格式错误的输入。 使用严格的解码器。 这是一个辅助方法:

static String decodeStrict(byte[] bytes, Charset charset) throws CharacterCodingException {
    return charset.newDecoder()
            .onMalformedInput(CodingErrorAction.REPORT)
            .onUnmappableCharacter(CodingErrorAction.REPORT)
            .decode(ByteBuffer.wrap(bytes))
            .toString();
}

下面是对应的严格编码器辅助方法,以备不时之需:

static byte[] encodeStrict(String str, Charset charset) throws CharacterCodingException {
    ByteBuffer buf = charset.newEncoder()
            .onMalformedInput(CodingErrorAction.REPORT)
            .onUnmappableCharacter(CodingErrorAction.REPORT)
            .encode(CharBuffer.wrap(str));
    byte[] bytes = buf.array();
    if (bytes.length == buf.limit())
        return bytes;
    return Arrays.copyOfRange(bytes, 0, buf.limit());
}

由于 ISO-8859-1 允许所有字节,因此您不能使用它来检测格式错误的输入。 然而 UTF-8 正在验证,因此它很可能检测到格式错误的输入。 然而,它不是 100% 保证的,但它是我们能做到的最好的。

因此,尝试使用严格的 UTF-8 进行解码,如果失败则回退到 ISO-8859-1:

static String decode(byte[] bytes) {
    try {
        return decodeStrict(bytes, StandardCharsets.UTF_8);
    } catch (CharacterCodingException e) {
        return new String(bytes, StandardCharsets.ISO_8859_1);
    }
}

测试

System.out.println(decode("señor".getBytes(StandardCharsets.ISO_8859_1))); // prints: señor
System.out.println(decode("señor".getBytes(StandardCharsets.UTF_8))); // prints: señor
System.out.println(decode("€100".getBytes(StandardCharsets.UTF_8))); // prints: €100

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM