繁体 English 中英

用于在OCR PDF中搜索空格/断行词的正则表达式（goo d ni g ht）

[英]Regex expression for searching spaced/broken words in OCR PDFs (goo d ni g ht)

原文 2014-04-24 23:42:18 0 1 regex/ pdf/ ocr/ space

我需要搜索许多OCR PDF。 我意识到单词和句子在视觉上是完美的，但是如果我复制粘贴内容，那么其中的空格将不存在！

我可以在文字中看到： good night

如果我复制并粘贴到某处： goo d ni g ht

考虑到通过Regex表达式处理这种情况的建议，我将不胜感激：

a）用于短字作为简单的例子\\bgood night\\b为goo d ni g ht

b）句子中有换行符时。 我的意思是，即使段落相同，Regex表达式也无法从PDF中的一行搜索到另一行。 寻找\\bthe sun set and the night comes\\b ，但PDF内容类似于粘贴时的内容：

第1行： t he sun set an d th e

第2行： nig ht co m es

非常感谢，卡杜

1 个解决方案

单词中间空格的这种随机出现可以在PDF中发生。 其背后的原因是PDF实际上是复杂的格式。 您会看到，PDF文档实际上是在查看器中呈现文本的说明容器。

想象一下这样的指令：

转到位置50、50。
画出字符“ G”
转到位置56、50。
画出字符“ O”
等等

每当您在查看器中选择某项内容（例如Adobe）时，该程序就必须找出与您的选择内容重叠的内容（这已经不是一个容易的问题了）。 如果是文本，则需要确定在何处添加空格和换行符。 不同的查看器（或软件）可能为此使用不同的指标。 例如，一个典型的例子是“如果两个字符比同一字体中的空格字符的宽度更远，则插入一个空格”

关键是，从PDF文档中提取文本始终是一种猜测。 而且，如果您添加的事实是它是OCR PDF，那么您将添加更多的困难。