String.length（）的奇怪行為

Question

我有主課：

public class Main {

// args[0] - is path to file with first and last words
// args[1] - is path to file with dictionary 
public static void main(String[] args) {
    try {
        List<String> firstLastWords = FileParser.getWords(args[0]);
            System.out.println(firstLastWords);
        System.out.println(firstLastWords.get(0).length());

    } catch (IOException ex) {
        ex.printStackTrace();
    }
}
}

我有FileParser：

public class FileParser {

    public FileParser() {
    }

    final static Charset ENCODING = StandardCharsets.UTF_8;


    public static List<String> getWords(String filePath) throws IOException {
        List<String> list = new ArrayList<String>();
        Path path = Paths.get(filePath);

        try (BufferedReader reader = Files.newBufferedReader(path, ENCODING)) {
            String line = null;
            while ((line = reader.readLine()) != null) {

                String line1 = line.replaceAll("\\s+","");
                if (!line1.equals("") && !line1.equals(" ") ){
                    list.add(line1);
                }
            }
            reader.close();
        }
        return list;
    }   
}

args[0]是只有2個單詞的txt文件的路徑。 所以，如果文件包含：

тор
кит

程序返回：

[тор, кит]
4

如果文件包含：

т
тор
кит

程序返回：

[т, тор, кит]
2

即使文件包含：
//跳到下一行
тор
кит

程序返回：

[, тор, кит]
1

其中digit - 是列表中第一個字符串的長度。

所以問題是為什么它又算一個符號呢？

Answer 1

謝謝大家。

這個符號表示@Bill是BOM（ http://en.wikipedia.org/wiki/Byte_order_mark ）並且位於文本文件的開頭。 所以我通過這一行找到了這個符號：

System.out.println(((int)firstLastWords.get(0).charAt(0)));

它給了我65279

然后我改變了這一行：
String line1 = line.replaceAll("\\\\s+",""); 對此

String line1 = line.replaceAll("\uFEFF","");

Answer 2

使用正則表達式很難捕獲西里爾字符，例如\\p{Graph}不起作用，盡管它們是清晰可見的字符。 無論如何，這是OP問題之外的問題。

實際問題可能是由於其他不可見的字符，可能存在控制字符。 嘗試使用以下正則表達式刪除更多： replaceAll("(\\\\s|\\\\p{Cntrl})+","") 。 您可以使用正則表達式進一步擴展到其他情況。

String.length（）的奇怪行為

問題描述

2 個解決方案

解決方案1
2 2015-04-28 09:21:47

解決方案2
1 2015-04-28 01:24:31

String.length（）的奇怪行為

問題描述

2 個解決方案

解決方案1 2 2015-04-28 09:21:47

解決方案2 1 2015-04-28 01:24:31

解決方案1
2 2015-04-28 09:21:47

解決方案2
1 2015-04-28 01:24:31