繁体   English   中英

使用 UTF-16 BOM 字符从文件中读取文本

[英]Reading text from file with UTF-16 BOM character

我正在尝试使用通用方法从文件中获取文本。 相当简单,只是要求它应该丢弃前导 BOM 字符。 对于 UTF-8,我得到了这个工作。 我为此使用了正则表达式模式:

Pattern LEADING_BOM_PATTERN = Pattern.compile("^\uFEFF+");

Charset encoding; // This is given.
InputStream input; // This is created.

// Remove the leading BOM characters.
String text = IOUtils.toString(input, encoding);
text = LEADING_BOM_PATTERN.matcher(text).replaceFirst("");

现在我的问题:这对 UTF-8 BOM 字符(EF BB BF)非常有效,但不适用于其他任何字符。 但是,正如此处所述

组成 BOM 的确切字节将是该转换格式将 Unicode 字符 U+FEFF 转换成的任何内容。

这让我假设“\”字符适用于所有 BOM 字符。 事实证明,事实并非如此。

经过更多研究,结果发现“FE FF”和“FF FE”BOM 字符都被 Java 读取为 char 65533,而“\”字符串解析为 char 65279。这确实清楚了为什么这些字符是没有删除,但我不认为这是预期的行为。

任何人都可以解释它为什么会这样做,或者更确切地说是如何解决它? 谢谢 :)

事实证明,这只是一个非常愚蠢的错误。 我没有将正确的编码传递给 IOUtils。 因此它没有返回正确的字符。 传递 UTF-16 字符集时,它工作正常。 傻我...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM