[英]Java - PDFBox - Text Extraction
我一直在使用pdfbox從PDF中提取文本信息。 我成功地解析了文本的所有屬性,如fontname,fontface,size,position等。
問題:我使用的是pdfbox1.2.1(最新版本)。 TextPosition類中的getCharacter()返回除最后一個字符之外的完整字符串。 最后一個字符被解析為單獨的字符串。
例如:“你好嗎”被解析為“如何喲”和“你”(2個單獨的字符串)。
我不希望它發生那種方式..
有沒有人來過這個? ..我做錯了什么??等待回復..
謝謝和問候,Magggi
這個問題解決了。
PDFStreamEngine.java
中的processEncodedText( byte[] string )
中的以下代碼
if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
continue;
}
應改為
if( spacingText == 0 && (i + codeLength) < (string.length) )
{
continue;
}
此致,Maggi
是。 這個問題由pdfbox解決。
試用最新版本的pdfbox。 最新版本可以從http://pdfbox.apache.org/download.html下載
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.