[英]PDF: How can I override/fix searchable text in a scanned image + OCR file?
我正在尝试在PDF文件上创建一个索引,我将其作为旧原始手稿中的图像进行扫描,然后在Adobe Acrobat Pro中进行字符识别。 问题是有些词语间隔很滑,所以OCR最终会出现漏洞。 我使用了查找和修复嫌疑人工具,但仍然存在问题。
举个例子......
文本“ FOR EXAMPLE ”在原始文档(当然是其图像)中间隔得很有趣,因此Adobe将其作为三个单词“ FOR EX AMPLE ”读取,然后导致单词“ ample ”的索引条目看起来完全有效如果我不知道更好。 这是我到目前为止所识别的文档中的几个类似问题之一(还有更多要校对的页面)。
如何修复底层OCR文本,使其在创建的索引和搜索文档时都包含正确的信息。
PS:我不能只是切换到文档的纯OCR文本版本,因为稿件是技术性的,并且有大量与文本相关的图纸。 我需要保留图像并更改下面的“隐藏”可搜索文本。
我发现这个答案提示ABBYY FineReader 14 (商业;我没有附属)。 看起来它会处理编辑,之后我假设你现有的工作流程会处理索引。 这是另一个给出更多工作流程细节的答案(虽然是三年前)。
另外, 这个问题的答案暗示了Perl的CAM :: PDF和pdftk 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.