UTF-8和ISO-8859-1无法在Java中解码欧洲字符集

Question

嗨，我有一个HTML页面，我从该页面中获取数据。 该页面使用UTF-8字符集，并包含德语和其他欧洲字母

<meta charset="utf-8">

但是，当我尝试将其解码为Java中的ISO-8859-1和UTF-8 ，却没有任何效果。 我无法获得欧洲字符，而是得到如下值：

Bayern MÃ¼nchen
Bor. MÃ¶nchengladbach
JÃ©rÃ´me Boateng

以下是我的代码片段：

               URL myUrl = new URL("http://www.weltfussball.de/spielplan/bundesliga-"
                                + season + "-spieltag/" + gameDay + "/");

    in = new BufferedReader(new InputStreamReader(myUrl.openStream(), "ISO-8859-1"));

                while ((line = in.readLine()) != null) {
                    all += line;
                }

我注意到的一件事是当我打印String line; 它会在Java控制台上正确打印所有拉丁字符，但是一旦我将其连接为String all;它就会立即输出String all; 人物搞砸了...有人可以建议解决方案吗？

Answer 1

首先，尝试查看页面是否像假装那样确实使用了UTF-8：

final CharsetDecoder decoder = StandardCharsets.UTF_8.newDecoder()
    .onMalformedInput(CodingErrorAction.REPORT);

try (
    final InputStream in = url.openStream();
    final Reader reader = new InputStreamReader(in, decoder);
) {
    /* read the contents */
}

如果该程序抛出MalformedInputException异常，则说明页面在说谎。

但是，考虑到您的输出，我怀疑问题是您的显示器无法正确读取UTF-8。

Answer 2

这始终有效。

InputStream is = getClass().getResourceAsStream(myUrl); byte[] b = new byte[is.available()]; int l = is.read(b); String body = new String(b, 0, l, "UTF-8"); // whatever your charset you want

Answer 3

确保仅读取 “ ISO-8859-1” 。 否则它将无法正常工作。 我今天遇到了同样的问题，我花了30分钟阅读这篇文章http://www.joelonsoftware.com/articles/Unicode.html ，然后解决了我的问题，现在我知道了解码的内容，为什么人们使用它，为什么这很好，以及他自己的局限性。

为了解决我的问题，我只在标题模板文件中替换了此标记：

meta http-equiv =“ content-type” content =“ text / html; charset = UTF-8”

对于：

meta http-equiv =“ content-type” content =“ text / html; charset = ISO-8859-1”

重新加载浏览器，我的欧洲名字和怪异字符现在可以正确打印了:)

对不起，英语不好！

UTF-8和ISO-8859-1无法在Java中解码欧洲字符集

问题描述

3 个解决方案

解决方案1
0 2015-01-20 18:34:25

解决方案2
0 2015-01-22 14:43:08

解决方案3
0 2015-02-10 16:20:41

UTF-8和ISO-8859-1无法在Java中解码欧洲字符集

问题描述

3 个解决方案

解决方案1 0 2015-01-20 18:34:25

解决方案2 0 2015-01-22 14:43:08

解决方案3 0 2015-02-10 16:20:41

解决方案1
0 2015-01-20 18:34:25

解决方案2
0 2015-01-22 14:43:08

解决方案3
0 2015-02-10 16:20:41