繁体   English   中英

PDFBox提取的文本不包含国际(非英语)字符

[英]Text extracted by PDFBox does not contain international (non-English) characters

我正在使用Apache PDFBox从多个PDF文件提取文本。 这些文件使用波兰语,并且包含波兰语字符。 不幸的是,当我打印提取的文本时,我一直得到 (问号),而不是这些字符。

假设您提取的文本存储在String中,我假设您当前正在使用它来打印-

System.out.println(s);

我建议您使用此代码段正确打印出波兰字符-

java.io.PrintStream p = new java.io.PrintStream(System.out,false,"UTF-8");
p.println(s);

这应该工作吗? 不会出现在打印的文本中。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM