繁体   English   中英

HTMLCLEANER处理西班牙语字符

[英]HTMLCLEANER handle Spanish characters

我正在使用HtmlCleaner库来解析/转换Java中的HTML文件。

似乎无法处理“ÁáÉéÍíÑññóóÚúÜü”这样的西班牙语字符

我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗? 这是我用来调用它的代码:

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

除非指定,否则HtmlCleaner使用从JVM读取的默认字符集。 在Windows上,它将是Cp1512而不是UTF-8,这可能是出问题的地方。

你可以

  • 在JVM起始行上指定-Dfile.encoding=UTF-8
  • 使用接受字符集的HtmlCleaner.clean()重载

     TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8"); 

    (如果项目中有Google Guava,则可以使用Charsets.UTF_8作为常量)

  • 使用HtmlCleaner.clean()重载来接受您已经使用正确的字符集构造的InputStreamReader。

您可以将UTF-8更改为UTF-16

它将支持最大字符数。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM