簡體   English   中英

Java - PDFBox - 文本提取

[英]Java - PDFBox - Text Extraction

我一直在使用pdfbox從PDF中提取文本信息。 我成功地解析了文本的所有屬性,如fontname,fontface,size,position等。

問題:我使用的是pdfbox1.2.1(最新版本)。 TextPosition類中的getCharacter()返回除最后一個字符之外的完整字符串。 最后一個字符被解析為單獨的字符串。

例如:“你好嗎”被解析為“如何喲”和“你”(2個單獨的字符串)。

我不希望它發生那種方式..

有沒有人來過這個? ..我做錯了什么??等待回復..

謝謝和問候,Magggi

這個問題解決了。

PDFStreamEngine.java中的processEncodedText( byte[] string )中的以下代碼

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

應改為

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

此致,Maggi

是。 這個問題由pdfbox解決。
試用最新版本的pdfbox。 最新版本可以從http://pdfbox.apache.org/download.html下載

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM