繁体   English   中英

用于在OCR PDF中搜索空格/断行词的正则表达式(goo d ni g ht)

[英]Regex expression for searching spaced/broken words in OCR PDFs (goo d ni g ht)

我需要搜索许多OCR PDF。 我意识到单词和句子在视觉上是完美的,但是如果我复制粘贴内容,那么其中的空格将不存在!

我可以在文字中看到: good night

如果我复制并粘贴到某处: goo d ni g ht

考虑到通过Regex表达式处理这种情况的建议,我将不胜感激:

a)用于短字作为简单的例子\\bgood night\\bgoo d ni g ht

b)句子中有换行符时。 我的意思是,即使段落相同,Regex表达式也无法从PDF中的一行搜索到另一行。 寻找\\bthe sun set and the night comes\\b ,但PDF内容类似于粘贴时的内容:

第1行: t he sun set an d th e

第2行: nig ht co m es

非常感谢,卡杜

单词中间空格的这种随机出现可以在PDF中发生。 其背后的原因是PDF实际上是复杂的格式。 您会看到,PDF文档实际上是在查看器中呈现文本的说明容器。

想象一下这样的指令:

  • 转到位置50、50。
  • 画出字符“ G”
  • 转到位置56、50。
  • 画出字符“ O”
  • 等等

每当您在查看器中选择某项内容(例如Adobe)时,该程序就必须找出与您的选择内容重叠的内容(这已经不是一个容易的问题了)。 如果是文本,则需要确定在何处添加空格和换行符。 不同的查看器(或软件)可能为此使用不同的指标。 例如,一个典型的例子是“如果两个字符比同一字体中的空格字符的宽度更远,则插入一个空格”

关键是,从PDF文档中提取文本始终是一种猜测。 而且,如果您添加的事实是它是OCR PDF,那么您将添加更多的困难。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM