繁体   English   中英

使用Java和Itext编辑PDF文本

[英]Editing PDF text using Java and Itext

有什么办法可以编辑PDF文档文本? 喜欢查找和替换特定文本?

我有一个PDF文档,其中包含需要识别和替换或仅删除该文本的文本的占位符。

我能够使用特定的坐标(x,y)编辑pdf,但无法识别和替换。 我看到的所有库都是从头开始创建PDF并具有小的编辑功能。 无论如何,我可以使用itext进行上述编辑吗? 请指教...谢谢!

**示例:pdf文档包含以下文字。 在这一段中,我需要将DATE:和FROM:标识为文本并将其替换为其他内容。

最古老的古典希腊文和拉丁文文字或其他文字之间几乎没有或没有空格,可以用牛头文字(交替方向)书写。 随着时间的流逝,文本方向(从左到右)变得标准化,并且单词分隔符和终端标点符号也变得很普遍。 **日期: 发件人: 将句子分为组的第一种方法是原始的paraos,类似于新组开始时的下划线 -------------------- --------------------------------------- **

请允许我复制本书 第6章的简介:

当我写关于iText的第一本书时,出版商不喜欢副标题“创建和操纵 PDF”。他不喜欢操纵这个词,因为它具有贬义的含义。 如果您查阅Yahoo!上的词典 教育 ,您将找到以下定义:

  • 巧妙地或巧妙地影响或管理
  • 篡改或伪造个人利益

显然,这不是本书的目的。 出版商建议将“创建和编辑 PDF”作为更好的字幕。 我解释说PDF不是很适合编辑的文档格式。 PDF是最终产品。 这是一种显示格式。 不是 文字处理格式。

在文字处理格式中,当您在应用程序中打开文档时,内容会分布在不同的页面上,而不是更早。 这有一些缺点:如果在不同的应用程序中打开同一文档,则最终页数将不同。 在Microsoft Word中查看时,相同的文本片段可以在X页上,而在Open Office中查看时,可以在Y页上。 您正是要选择PDF来避免这种问题。

在PDF文档中,PDF页面上的每个字符或字形都有其固定位置,而与用于查看文档的应用程序无关。 这是一个优点,但也有一个缺点。 假设您想将句子中的“编辑”一词替换为“操纵”一词,则必须对文本进行重排。 您必须重新定位该单词后面的所有字符。 也许您甚至不得不将部分文本移到下一页。 即使不是不可能的,这也不是小事。

如果要“编辑” PDF,建议您更改文档的原始来源并重新制作PDF。 如果原始文档是使用Microsoft Word编写的,请更改Word文档,然后从Word文档的新版本制作PDF。 不要指望任何工具能够像编辑Word文档一样编辑PDF文件。

话虽这么说,动词“操纵”也意味着

  • 用手,机械地用手或机械手段移动,布置,操作或控制

这正是本章中要执行的操作。 使用iText,您将可以熟练地操作PDF文件的页面。 您将把PDF文档当作由数码纸制成。

在您的问题中,您说: “我看到的所有库都是从头开始的,并且具有小的编辑功能。”

好吧,那只是正常现象。 它是您选择的文档格式所固有的。 您的设计涉及“您需要标识和替换或删除的文本的占位符”,这是一个严重的缺陷。 错误地选择了文档格式。 您应该选择适合编辑的格式。 PDF不是这种格式。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM