繁体   English   中英

PDF:如何覆盖/修复扫描图像+ OCR文件中的可搜索文本?

[英]PDF: How can I override/fix searchable text in a scanned image + OCR file?

我正在尝试在PDF文件上创建一个索引,我将其作为旧原始手稿中的图像进行扫描,然后在Adobe Acrobat Pro中进行字符识别。 问题是有些词语间隔很滑,所以OCR最终会出现漏洞。 我使用了查找和修复嫌疑人工具,但仍然存在问题。

举个例子......

文本“ FOR EXAMPLE ”在原始文档(当然是其图像)中间隔得很有趣,因此Adobe将其作为三个单词“ FOR EX AMPLE ”读取,然后导致单词“ ample ”的索引条目看起来完全有效如果我不知道更好。 这是我到目前为止所识别的文档中的几个类似问题之一(还有更多要校对的页面)。

如何修复底层OCR文本,使其在创建的索引搜索文档时包含正确的信息。

PS:我不能只是切换到文档的纯OCR文本版本,因为稿件是技术性的,并且有大量与文本相关的图纸。 我需要保留图像并更改下面的“隐藏”可搜索文本。

我发现这个答案提示ABBYY FineReader 14 (商业;我没有附属)。 看起来它会处理编辑,之后我假设你现有的工作流程会处理索引。 是另一个给出更多工作流程细节的答案(虽然是三年前)。

另外, 这个问题的答案暗示了Perl的CAM :: PDFpdftk

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM