繁体 English 中英

HTMLCLEANER处理西班牙语字符

[英]HTMLCLEANER handle Spanish characters

原文 2012-04-24 14:07:17 7 2 java/ html/ htmlcleaner

我正在使用HtmlCleaner库来解析/转换Java中的HTML文件。

似乎无法处理“ÁáÉéÍíÑññóóÚúÜü”这样的西班牙语字符

我可以在HtmlCleaner中设置任何属性来处理此解决方案或任何其他解决方案吗？ 这是我用来调用它的代码：

CleanerProperties props = new CleanerProperties();
props.setRecognizeUnicodeChars(true);
java.io.File file = new java.io.File("C:\\example.html");
TagNode tagNode = new HtmlCleaner(props).clean(file);

2 个解决方案

除非指定，否则HtmlCleaner使用从JVM读取的默认字符集。 在Windows上，它将是Cp1512而不是UTF-8，这可能是出问题的地方。

你可以

在JVM起始行上指定-Dfile.encoding=UTF-8
使用接受字符集的HtmlCleaner.clean()重载
```
 TagNode tagNode = new HtmlCleaner(props).clean(file, "UTF-8"); 
```
（如果项目中有Google Guava，则可以使用Charsets.UTF_8作为常量）
使用HtmlCleaner.clean()重载来接受您已经使用正确的字符集构造的InputStreamReader。

您可以将UTF-8更改为UTF-16 。

它将支持最大字符数。

Java HtmlCleaner：不处理扩展的ASCII字符

[英]Java HtmlCleaner: Does not handle extended ascii characters

西班牙语字符和URISyntaxException

[英]Spanish characters and URISyntaxException

在Java / JSP中处理西班牙语字符

[英]Handling Spanish characters in Java/JSP

Java 错误地存储了西班牙语字符

[英]Java is store wrongly spanish characters

Java中的Caesar密码（西班牙语字符）

[英]Caesar Cipher in Java (Spanish Characters)

java字符串中的西班牙语字符问题

[英]Issue with spanish characters in java string

正则表达式包含所有西班牙语字符和数字

[英]Regex to include all spanish characters and number

尝试使用PDFBOX显示西班牙语或法语字符时出错

[英]Error trying to show Spanish or French characters with PDFBOX

詹金斯中的Ant任务失败，因为注释中的西班牙语字符

[英]Ant task failed in jenkins because spanish characters on comments

使用request.getparameter（）获取西班牙语字符不起作用

[英]get Spanish characters using request.getparameter() not working

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Java HtmlCleaner：不处理扩展的ASCII字符西班牙语字符和URISyntaxException 在Java / JSP中处理西班牙语字符 Java 错误地存储了西班牙语字符 Java中的Caesar密码（西班牙语字符） java字符串中的西班牙语字符问题正则表达式包含所有西班牙语字符和数字尝试使用PDFBOX显示西班牙语或法语字符时出错詹金斯中的Ant任务失败，因为注释中的西班牙语字符使用request.getparameter（）获取西班牙语字符不起作用

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM