在使用org.apache.pdfbox和java解析pdf文档时，将'-'转换为'？'

Question

PDPDDocument pdfDoc = PDDocument.load(input);
PDFTextStripper stripper=new PDFTextStripper();
stripper.setSortByPosition(true);
stripper.fixedCharWidth =5; 
String text= stripper.getText(pdfDoc);

When I observed the output for input string in the pdf file: 07‑Jul‑2014 / 7/ 2014 当我在pdf文件中观察到输入字符串的输出时： 07‑Jul‑2014 / 7/ 2014

Output of the above line is like this: 07?JUL?2014 / 7/ 2014 上一行的输出是这样的： 07?JUL?2014 / 7/ 2014

Answer 1

Here it is a work around (at least for me) : 
String DD_MM_YYYY_DATE_FORMAT_REGEX="[0-9]{1,2}(\\?)[a-zA-Z]{3}(\\?)[0-9]{4}";//string length=10
String DD_MMM_YYYY_DATE_FORMAT_REGEX="[0-9]{1,2}(\\?)[a-zA-Z]{3}(\\?)[0-9]{4}";//length=11

if(wordArray[index].substring(0,11).matches(DD_MMM_YYYY_DATE_FORMAT_REGEX))
{
        wordArray[index]=wordArray[index].replaceAll("\\?", "/");
}
                                if(wordArray[index].substring(0,10).matches(DD_MM_YYYY_DATE_FORMAT_REGEX))
{
    wordArray[index]=wordArray[index].replaceAll("\\?", "/");
}

Answer 2

It looks like an encoding issue. 看起来像是编码问题。 Seeing as you won't share the PDF, I can only suggest trying the following: 看到您不会共享PDF，我只能建议尝试以下方法：

PDFTextStripper stripper=new PDFTextStripper("UTF-8");

在使用org.apache.pdfbox和java解析pdf文档时，将'-'转换为'？'

问题描述

2 个解决方案

解决方案1
0 2015-08-18 12:44:15

解决方案2
0 2015-08-18 12:51:30

在使用org.apache.pdfbox和java解析pdf文档时，将&#39;-&#39;转换为&#39;？&#39;

问题描述

2 个解决方案

解决方案1 0 2015-08-18 12:44:15

解决方案2 0 2015-08-18 12:51:30

在使用org.apache.pdfbox和java解析pdf文档时，将'-'转换为'？'

解决方案1
0 2015-08-18 12:44:15

解决方案2
0 2015-08-18 12:51:30