簡體 English 中英

帶有字體和樣式的iText PDF文本提取

[英]iText PDF Text Extraction with fonts and styles

原文 2013-01-23 22:46:50 9 1 java/ android/ pdf/ itext

我正在使用iText將PDF中的文本提取到字符串中，但是某些PDF遇到了問題。 當我嘗試提取文本時，讀者只能提取一些pdf上的空白/被破壞的文本。

損壞的文字示例：

“對於延長運動時間來說太長了”

這個問題是什么原因造成的？

我正在考慮刪除字體並將字體更改為適合讀者閱讀的字體。 我曾嘗試對此進行研究，但發現對我沒有幫助。

這是由文本在PDF文件中的存儲方式引起的。 它只是將字母與渲染和位置信息放在一起。 文本提取算法很聰明，因為它可以找到看起來很靠近的字母，如果可以的話，可以將它們放在一起。 如果它們之間的距離不那么近，它將放置一些空間。

不過，我無法告訴您該怎么辦。

通過iText提取PDF文本會返回奇怪的字符

[英]PDF text extraction via iText returns strange characters

[英]java itext catching null exception pdf text extraction

[英]How to use Fonts in iText PDF

[英]itext html to pdf with multiple fonts

[英]Android iText Reading PDF: Difference between iText's Parser and Extraction

[英]PDF text extraction in Java

[英]Embed non-embedded fonts in PDF with IText

[英]Replace fonts in a PDF using iText (Java)

[英]Spacing between Itext PDF fonts is incorrect

[英]iText PDF A-2 with English and Hindi Fonts

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 通過iText提取PDF文本會返回奇怪的字符 java itext捕獲null異常pdf文本提取如何在iText PDF中使用字體 itext html至pdf帶有多種字體 Android iText閱讀PDF：iText的Parser和Extraction之間的區別 Java中的PDF文本提取使用IText在PDF中嵌入非嵌入字體使用iText（Java）替換PDF中的字體 Itext PDF fonts 之間的間距不正確 iText PDF A-2 英語和印地語 Fonts

相關標簽