簡體   English   中英

帶有字體和樣式的iText PDF文本提取

[英]iText PDF Text Extraction with fonts and styles

我正在使用iText將PDF中的文本提取到字符串中,但是某些PDF遇到了問題。 當我嘗試提取文本時,讀者只能提取一些pdf上的空白/被破壞的文本。

損壞的文字示例:

“對於延長運動時間來說太長了”

這個問題是什么原因造成的?

我正在考慮刪除字體並將字體更改為適合讀者閱讀的字體。 我曾嘗試對此進行研究,但發現對我沒有幫助。

這是由文本在PDF文件中的存儲方式引起的。 它只是將字母與渲染和位置信息放在一起。 文本提取算法很聰明,因為它可以找到看起來很靠近的字母,如果可以的話,可以將它們放在一起。 如果它們之間的距離不那么近,它將放置一些空間。

不過,我無法告訴您該怎么辦。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM