Java代码错误地读取了UTF-8文本

Question

我在读取代码（在Eclipse上运行）时遇到UTF-8字符时遇到问题。

我有一个包含几行的文件text ，例如：

אך  1234

注意：单词前有一个\\t ，单词应出现在左侧，数字应显示在右侧...我不知道如何在此处将其反转，对不起。

也就是希伯来语单词，然后是数字。

我需要以某种方式将单词与数字分开。 我尝试了这个：

        BufferedReader br = new BufferedReader(new FileReader(text));
        String content;

        while ((content = br.readLine()) != null) 
        {
            String delims = "[ ]+";
            String[] tokens = content.split(delims);
        }

问题是由于某种原因，代码读取content （文件的第一行）的方式如下：

אך\t1234

...表示该空间不在正确的位置。

我想我可以使用\\t标记文本，但是我不确定应该这样做，因为文件未正确读取...

有谁知道为什么会这样吗？

非常感谢：-）

Answer 1

我认为当实际上有一个选项卡时，您正在匹配一个空格？

你可以尝试一下：

BufferedReader br = new BufferedReader(new FileReader(text));
String content;

while ((content = br.readLine()) != null) 
{
    String delims = "\\s";
    String[] tokens = content.split(delims);
}

Java代码错误地读取了UTF-8文本

问题描述

1 个解决方案

解决方案1
1 已采纳 2014-03-10 01:22:14

Java代码错误地读取了UTF-8文本

问题描述

1 个解决方案

解决方案1 1 已采纳 2014-03-10 01:22:14

解决方案1
1 已采纳 2014-03-10 01:22:14