繁体 English 中英

PDF：如何覆盖/修复扫描图像+ OCR文件中的可搜索文本？

[英]PDF: How can I override/fix searchable text in a scanned image + OCR file?

原文 2018-03-16 19:44:27 9 1 pdf/ adobe/ edit/ acrobat

我正在尝试在PDF文件上创建一个索引，我将其作为旧原始手稿中的图像进行扫描，然后在Adobe Acrobat Pro中进行字符识别。 问题是有些词语间隔很滑，所以OCR最终会出现漏洞。 我使用了查找和修复嫌疑人工具，但仍然存在问题。

举个例子......

文本“ FOR EXAMPLE ”在原始文档（当然是其图像）中间隔得很有趣，因此Adobe将其作为三个单词“ FOR EX AMPLE ”读取，然后导致单词“ ample ”的索引条目看起来完全有效如果我不知道更好。 这是我到目前为止所识别的文档中的几个类似问题之一（还有更多要校对的页面）。

如何修复底层OCR文本，使其在创建的索引和搜索文档时都包含正确的信息。

PS：我不能只是切换到文档的纯OCR文本版本，因为稿件是技术性的，并且有大量与文本相关的图纸。 我需要保留图像并更改下面的“隐藏”可搜索文本。

1 个解决方案

我发现这个答案提示ABBYY FineReader 14 （商业;我没有附属）。 看起来它会处理编辑，之后我假设你现有的工作流程会处理索引。 这是另一个给出更多工作流程细节的答案（虽然是三年前）。

另外，这个问题的答案暗示了Perl的CAM :: PDF和pdftk 。

如何修复向后扫描的PDF文档？

[英]How can I fix a PDF document that was scanned backwards?

如何将pdf扫描的图像转换为最适合ocr的高分辨率tiff？

[英]how to convert pdf scanned image to high resolution tiff with best for ocr?

如何在TIFF图像上叠加文本，创建类似可搜索的pdf？

[英]How can I overlay text on a TIFF image, creating something like a searchable pdf?

如何编辑可搜索 PDF 的搜索文本？

[英]How can I edit the search text of a searchable PDF?

将扫描的pdf文件转换为可文本搜索的pdf文件

[英]Convert scanned pdf files to text-searchable pdf files

如何将扫描的 PDF 转换为 Python 中的可搜索 PDF？ [环境：Windows]

[英]How to convert scanned PDF to searchable PDF in Python? [Environment:Windows]

如何使用 CUPS 将文本可搜索 PDF 转换为图像 PDF？

[英]How to convert Text Searchable PDF to Image PDF with CUPS?

使用 Tesseract OCR 从扫描的 pdf 个文件夹中提取文本

[英]Use Tesseract OCR to extract text from a scanned pdf folders

如何检查 PDF 是扫描图像还是包含批量文本？我想自动将1000个文件分成2个文件夹

[英]How to check if a PDF is a scanned image or contains text in bulk? I want to split 1000 files into 2 folders automatically

如何使用 C# 从扫描的 PDF 文档中提取文本？

[英]How can I extract text from a scanned PDF document with C#?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何修复向后扫描的PDF文档？如何将pdf扫描的图像转换为最适合ocr的高分辨率tiff？如何在TIFF图像上叠加文本，创建类似可搜索的pdf？如何编辑可搜索 PDF 的搜索文本？将扫描的pdf文件转换为可文本搜索的pdf文件如何将扫描的 PDF 转换为 Python 中的可搜索 PDF？ [环境：Windows] 如何使用 CUPS 将文本可搜索 PDF 转换为图像 PDF？使用 Tesseract OCR 从扫描的 pdf 个文件夹中提取文本如何检查 PDF 是扫描图像还是包含批量文本？我想自动将1000个文件分成2个文件夹如何使用 C# 从扫描的 PDF 文档中提取文本？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM