Java - PDFBox - 文本提取

Question

我一直在使用pdfbox從PDF中提取文本信息。 我成功地解析了文本的所有屬性，如fontname，fontface，size，position等。

問題：我使用的是pdfbox1.2.1（最新版本）。 TextPosition類中的getCharacter（）返回除最后一個字符之外的完整字符串。 最后一個字符被解析為單獨的字符串。

例如：“你好嗎”被解析為“如何喲”和“你”（2個單獨的字符串）。

我不希望它發生那種方式..

有沒有人來過這個？ ..我做錯了什么??等待回復..

謝謝和問候，Magggi

Answer 1

這個問題解決了。

PDFStreamEngine.java中的processEncodedText( byte[] string )中的以下代碼

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

應改為

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

此致，Maggi

Answer 2

是。 這個問題由pdfbox解決。
試用最新版本的pdfbox。 最新版本可以從http://pdfbox.apache.org/download.html下載