java - 读取Java源文件时要使用什么字符集？

字符编码不同

任何工具都可以用任何编码编写Java源代码。 Java语言规范甚至都没有定义.java文件的想法。 任何IDE能坚持Java源代码，它想要的任何方式与^†任何编码。

这些工具负责最终向编译器工具链提供符合Unicode的字符流。 他们如何收集和保留源代码取决于特定的工具。

程序使用Unicode字符集编写。 有关此字符集及其关联的字符编码的信息，可以在http://www.unicode.org/上找到。

因此，假定Java源代码文件将使用Unicode通用的字符编码之一，例如UTF-8 ， UTF-16或UCS-2。

第3.2节词汇翻译提到Java程序可以通过嵌入Unicode转义来使用ASCII之类的编码：

\\ uxxxx格式的Unicode转义符，其中xxxx是十六进制值，表示其编码为xxxx的UTF-16代码单元。

虽然在我的经验中UTF-8很常见，但这并不是唯一可能的编码。 您必须知道或猜测任何特定源文件的编码，并且必须考虑扩展任何Unicode转义。

其他事宜

顺便说一句，请注意至少在Oracle JDK，在字节顺序标记（BOM）可选为UTF-8的文件在Java中是不允许因错误（ JDK-4508058 ，将永远是固定的（因为向后的）兼容性问题）。

另请注意，行终止符可能有所不同：ASCII字符CR（回车）或LF（行进纸）或CR LF。

空白各不相同：空格（SP），字符制表符（HT）（水平选项卡），进纸（FF）和行终止符。

阅读规范以获得更多详细信息。 例如，关于SUBSTITUTE字符：

作为与某些操作系统兼容的特殊让步，如果ASCII SUB字符（\\ u001a或control-Z）是转义的输入流中的最后一个字符，则将其忽略。

关于字符编码

^†甚至假定的规则（例如“每个.java文件一个公共类”）也可以由特定工具定义，而不是由Java本身定义。 Java的CodeWarrior工具可以在每个文件支持多个类时使用。

Java：使用字符集读取大文件

[英]java: reading large file with charset

读取CSV档案时出现java.nio.charset.MalformedInputException

[英]java.nio.charset.MalformedInputException when reading a csv file

使用字符集编码读取文件

[英]Reading file with charset encoding

Java 7：调用Files.newBufferedReader时我应该使用什么字符集？

[英]Java 7: What charset shall I use when calling Files.newBufferedReader?

将Java字节读取为CharSet

[英]Reading Java byte's as CharSet

Excel电子表格中的字符编码（以及用于解码它的Java字符集）

[英]Character encoding in Excel spreadsheet (and what Java charset to use to decode it)

java-文件字符集

[英]java - File charset

用于文件编码的默认字符集-Java

[英]Default charset for file encoding - Java

java中的文件名charset问题

[英]File name charset problem in java

写入文件和从文件读取-Java-不读取我写入文件的内容

[英]Writing to and reading from file - Java - Not reading what I wrote into file

读取Java源文件时要使用什么字符集？

问题描述

1 个解决方案

解决方案1
4 已采纳 2016-06-04 08:09:41

字符编码不同

其他事宜

关于字符编码