繁体 English 中英

如何检测文件的字符编码？

[英]How to detect the character encoding of a file?

原文 2010-09-10 12:19:29 7 2 java/ utf-8/ character-encoding/ detect/ shift-jis

我们的应用程序从用户那里接收文件，如果这些文件属于我们支持的编码类型（即UTF-8，Shift-JIS，EUC-JP），则必须对其进行验证，并且一旦该文件通过验证，我们还需要将该文件保存在我们的系统中，并将其编码保存为元数据。

当前，我们正在使用JCharDet （这是mozilla字符检测器的java端口），但是似乎有些Shift-JIS字符似乎无法检测为有效的Shift-JIS字符。

还有什么我们可以使用的想法吗？

2 个解决方案

Apache Tika是一个内容分析工具包，主要用于确定文件类型（与编码方案相对），但是它确实返回文本文件类型的内容编码信息。 我不知道它的算法是否像JCharDet一样先进，但是可能值得一试...

ICU4J的CharsetDetector将为您提供帮助。

BufferedInputStream bis = new BufferedInputStream(new FileInputStream(path));
CharsetDetector cd = new CharsetDetector();
cd.setText(bis);
String charsetName = cd.detect().getName();

顺便说一句，是什么类型的字符引起了错误，又是什么类型的引起了错误？ 我认为ICU4J也会遇到相同的问题，具体取决于字符和错误。

如何检测Unix终端字符编码？

[英]How to detect Unix terminal character encoding?

如何检测Java中的字符集编码？

[英]How to detect which character set encoding in Java?

如何检测PPTX文件的编码？

[英]How to detect the encoding of a PPTX file?

如何使用特定字符编码读取Java文件？

[英]How to read a file in Java with specific character encoding?

如何检测编码不匹配

[英]How to detect encoding mismatch

如何检测错误的编码

[英]how to detect wrong encoding

Java中的自动检测字符编码

[英]Auto-Detect Character Encoding in Java

如何使用GBK编码将汉字写入文本文件？

[英]How to write Chinese character into text file using GBK encoding?

如何从Spring字符编码中排除文件？

[英]How do I exclude a file from Spring character encoding?

txt文件中的字符°编码和可视化

[英]character ° encoding and visualization in txt file

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何检测Unix终端字符编码？如何检测Java中的字符集编码？如何检测PPTX文件的编码？如何使用特定字符编码读取Java文件？如何检测编码不匹配如何检测错误的编码 Java中的自动检测字符编码如何使用GBK编码将汉字写入文本文件？如何从Spring字符编码中排除文件？ txt文件中的字符°编码和可视化

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM