[英]Java application reads UTF-8 encoded text files but after ant build the characters are not as expected
[英]Java code reads UTF-8 text incorrectly
我在读取代码(在Eclipse上运行)时遇到UTF-8字符时遇到问题。
我有一个包含几行的文件text
,例如:
אך 1234
注意 :单词前有一个\\t
,单词应出现在左侧,数字应显示在右侧...我不知道如何在此处将其反转,对不起。
也就是希伯来语单词,然后是数字。
我需要以某种方式将单词与数字分开。 我尝试了这个:
BufferedReader br = new BufferedReader(new FileReader(text));
String content;
while ((content = br.readLine()) != null)
{
String delims = "[ ]+";
String[] tokens = content.split(delims);
}
问题是由于某种原因,代码读取content
(文件的第一行)的方式如下:
אך\t1234
...表示该空间不在正确的位置。
我想我可以使用\\t
标记文本,但是我不确定应该这样做,因为文件未正确读取...
有谁知道为什么会这样吗?
非常感谢 :-)
我认为当实际上有一个选项卡时,您正在匹配一个空格?
你可以尝试一下:
BufferedReader br = new BufferedReader(new FileReader(text));
String content;
while ((content = br.readLine()) != null)
{
String delims = "\\s";
String[] tokens = content.split(delims);
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.