Files.readAllBytes与Files.lines获得MalformedInputException

Question

我以为以下两种读取文件的方法应该表现相同。 但是他们没有。 第二种方法是抛出MalformedInputException 。

public static void main(String[] args) {    
    try {
        String content = new String(Files.readAllBytes(Paths.get("_template.txt")));
        System.out.println(content);
    } catch (IOException e) {
        e.printStackTrace();
    }

    try(Stream<String> lines = Files.lines(Paths.get("_template.txt"))) {
        lines.forEach(System.out::println);
    } catch (IOException e) {
        e.printStackTrace();
    }
}

这是堆栈跟踪：

Exception in thread "main" java.io.UncheckedIOException: java.nio.charset.MalformedInputException: Input length = 1
    at java.io.BufferedReader$1.hasNext(BufferedReader.java:574)
    at java.util.Iterator.forEachRemaining(Iterator.java:115)
    at java.util.Spliterators$IteratorSpliterator.forEachRemaining(Spliterators.java:1801)
    at java.util.stream.ReferencePipeline$Head.forEach(ReferencePipeline.java:580)
    at Test.main(Test.java:19)
Caused by: java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(CoderResult.java:281)
    at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:339)
    at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:178)
    at java.io.InputStreamReader.read(InputStreamReader.java:184)
    at java.io.BufferedReader.fill(BufferedReader.java:161)
    at java.io.BufferedReader.readLine(BufferedReader.java:324)
    at java.io.BufferedReader.readLine(BufferedReader.java:389)
    at java.io.BufferedReader$1.hasNext(BufferedReader.java:571)
    ... 4 more

这有什么区别，我该如何解决？

Answer 1

这与字符编码有关。 电脑只处理数字。 要存储文本，必须使用某种方案将文本中的字符与数字进行相互转换。 该方案称为字符编码。 有许多不同的字符编码。 一些众所周知的标准字符编码是ASCII，ISO-8859-1和UTF-8。

在第一个示例中，您读取了文件中的所有字节（数字），然后将它们传递给String类的构造函数，将其转换为字符。 这将使用系统的默认字符编码（无论您的操作系统是什么）将字节转换为字符。

根据文档，在第二个示例中，在使用Files.lines(...) ，将使用UTF-8字符编码。 如果在文件中找到的字节序列不是有效的UTF-8序列，则会得到MalformedInputException 。

系统的默认字符编码可能为UTF-8，也可能不是UTF-8，因此可以解释行为上的差异。

您必须找出用于文件的字符编码，然后显式使用它。 例如：

String content = new String(Files.readAllBytes(Paths.get("_template.txt")),
        StandardCharsets.ISO_8859_1);

第二个例子：

Stream<String> lines = Files.lines(Paths.get("_template.txt"),
        StandardCharsets.ISO_8859_1);

Answer 2

为了补充Jesper的回答，这里发生的（并且没有记录！）是Files.lines()创建一个CharsetDecoder其策略是拒绝无效的字节序列。 也就是说，其CodingErrorAction设置为REPORT 。

这与JDK提供的几乎所有其他Reader实现不同，后者的标准策略是REPLACE 。 此策略将导致所有不可映射的字节序列发出替换字符（U + FFFD）。

Answer 3

默认情况下， Files.lines使用UTF-8编码，而从字节实例化新的String将使用默认的系统编码。 您的文件似乎不在UTF-8中，这就是失败的原因。

检查文件使用的编码方式，并将其作为第二个参数传递。

Answer 4

2017年使用：

 Charset.forName("ISO_8859_1") instead of Charsets.ISO_8859_1

Files.readAllBytes与Files.lines获得MalformedInputException

问题描述

4 个解决方案

解决方案1
30 已采纳 2015-04-29 08:01:44

解决方案2
6 2015-04-29 08:17:41

解决方案3
1 2015-04-29 08:01:31

解决方案4
1 2017-07-13 09:28:19

Files.readAllBytes与Files.lines获得MalformedInputException

问题描述

4 个解决方案

解决方案1 30 已采纳 2015-04-29 08:01:44

解决方案2 6 2015-04-29 08:17:41

解决方案3 1 2015-04-29 08:01:31

解决方案4 1 2017-07-13 09:28:19

解决方案1
30 已采纳 2015-04-29 08:01:44

解决方案2
6 2015-04-29 08:17:41

解决方案3
1 2015-04-29 08:01:31

解决方案4
1 2017-07-13 09:28:19