簡體   English   中英

Java代碼錯誤地讀取了UTF-8文本

[英]Java code reads UTF-8 text incorrectly

我在讀取代碼(在Eclipse上運行)時遇到UTF-8字符時遇到問題。

我有一個包含幾行的文件text ,例如:

אך  1234

注意 :單詞前有一個\\t ,單詞應出現在左側,數字應顯示在右側...我不知道如何在此處將其反轉,對不起。

也就是希伯來語單詞,然后是數字。

我需要以某種方式將單詞與數字分開。 我嘗試了這個:

        BufferedReader br = new BufferedReader(new FileReader(text));
        String content;

        while ((content = br.readLine()) != null) 
        {
            String delims = "[ ]+";
            String[] tokens = content.split(delims);
        }

問題是由於某種原因,代碼讀取content (文件的第一行)的方式如下:

אך\t1234

...表示該空間不在正確的位置。

我想我可以使用\\t標記文本,但是我不確定應該這樣做,因為文件未正確讀取...

有誰知道為什么會這樣嗎?

非常感謝 :-)

我認為當實際上有一個選項卡時,您正在匹配一個空格?

你可以嘗試一下:

BufferedReader br = new BufferedReader(new FileReader(text));
String content;

while ((content = br.readLine()) != null) 
{
    String delims = "\\s";
    String[] tokens = content.split(delims);
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM