繁体   English   中英

Java代码错误地读取了UTF-8文本

[英]Java code reads UTF-8 text incorrectly

我在读取代码(在Eclipse上运行)时遇到UTF-8字符时遇到问题。

我有一个包含几行的文件text ,例如:

אך  1234

注意 :单词前有一个\\t ,单词应出现在左侧,数字应显示在右侧...我不知道如何在此处将其反转,对不起。

也就是希伯来语单词,然后是数字。

我需要以某种方式将单词与数字分开。 我尝试了这个:

        BufferedReader br = new BufferedReader(new FileReader(text));
        String content;

        while ((content = br.readLine()) != null) 
        {
            String delims = "[ ]+";
            String[] tokens = content.split(delims);
        }

问题是由于某种原因,代码读取content (文件的第一行)的方式如下:

אך\t1234

...表示该空间不在正确的位置。

我想我可以使用\\t标记文本,但是我不确定应该这样做,因为文件未正确读取...

有谁知道为什么会这样吗?

非常感谢 :-)

我认为当实际上有一个选项卡时,您正在匹配一个空格?

你可以尝试一下:

BufferedReader br = new BufferedReader(new FileReader(text));
String content;

while ((content = br.readLine()) != null) 
{
    String delims = "\\s";
    String[] tokens = content.split(delims);
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM