特殊字符未正确从pdf转换为文本

Question

我有一组包含中欧字符（例如č，Ď，Š等）的pdf文件。 我想将它们转换为文本，并且已经尝试通过Apache Tika进行pdftotext和PDFBox ，但始终无法正确转换其中的一些。

奇怪的是，同一文本中的同一字符在某些地方正确转换，而在另一些地方错误转换！ pdf是一个示例。

对于pdftotext，我正在使用以下选项：

pdftotext -nopgbrk -eol dos -enc UTF-8 070612.pdf

我的Tika代码如下所示：

          String newname = f.getCanonicalPath().replace(".pdf", ".txt");
          OutputStreamWriter print = new OutputStreamWriter (new FileOutputStream(newname), Charset.forName("UTF-16"));
          String    fileString = "path\to\myfiles\"
          try{

              is = new FileInputStream(f);

              ContentHandler contenthandler = new BodyContentHandler(10*1024*1024);
              Metadata metadata = new Metadata();
              PDFParser pdfparser = new PDFParser();

              pdfparser.parse(is, contenthandler, metadata, new ParseContext());
              String outputString = contenthandler.toString();

              outputString = outputString.replace("\n", "\r\n");
              System.err.println("Writing now file "+newname);
              print.write(outputString);

          }catch (Exception e) {
              e.printStackTrace();
            }
            finally {
               if (is != null) is.close();
               print.close();
            }

编辑：忘记提及从Acrobat Reader XI转换为文本时，我也面临相同的问题。

Answer 1

除了其他内容外，此代码还将使用平台默认编码：

PrintWriter print = new PrintWriter(newname);
print.print(outputString);
print.close();

我建议您使用OutputStreamWriter而不是包装FileOutputStream ，并指定UTF-8作为编码（因为它可以编码所有Unicode，并且通常受到很好的支持）。

您还应该在finally块中关闭作家，而我可能会将“阅读”部分与“写作”部分分开。 （我也避免捕获Exception ，但是进入异常处理的细节超出了此答案的范围。）

特殊字符未正确从pdf转换为文本

问题描述

1 个解决方案

解决方案1
2 2013-06-24 09:31:40

特殊字符未正确从pdf转换为文本

问题描述

1 个解决方案

解决方案1 2 2013-06-24 09:31:40

解决方案1
2 2013-06-24 09:31:40