使用 UTF-16 BOM 字符从文件中读取文本

Question

我正在尝试使用通用方法从文件中获取文本。 相当简单，只是要求它应该丢弃前导 BOM 字符。 对于 UTF-8，我得到了这个工作。 我为此使用了正则表达式模式：

Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");

Charset encoding; // This is given.
InputStream input; // This is created.

// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");

现在我的问题：这对 UTF-8 BOM 字符（EF BB BF）非常有效，但不适用于其他任何字符。 但是，正如此处所述：

组成 BOM 的确切字节将是该转换格式将 Unicode 字符 U+FEFF 转换成的任何内容。

这让我假设“\”字符适用于所有 BOM 字符。 事实证明，事实并非如此。

经过更多研究，结果发现“FE FF”和“FF FE”BOM 字符都被 Java 读取为 char 65533，而“\”字符串解析为 char 65279。这确实清楚了为什么这些字符是没有删除，但我不认为这是预期的行为。

任何人都可以解释它为什么会这样做，或者更确切地说是如何解决它？ 谢谢：）

Answer 1

事实证明，这只是一个非常愚蠢的错误。 我没有将正确的编码传递给 IOUtils。 因此它没有返回正确的字符。 传递 UTF-16 字符集时，它工作正常。 傻我...

使用 UTF-16 BOM 字符从文件中读取文本

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-03-16 09:06:50

使用 UTF-16 BOM 字符从文件中读取文本

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-03-16 09:06:50

解决方案1
1 已采纳 2016-03-16 09:06:50