[英]Regex expression for searching spaced/broken words in OCR PDFs (goo d ni g ht)
我需要搜索许多OCR PDF。 我意识到单词和句子在视觉上是完美的,但是如果我复制粘贴内容,那么其中的空格将不存在!
我可以在文字中看到: good night
如果我复制并粘贴到某处: goo d ni g ht
考虑到通过Regex表达式处理这种情况的建议,我将不胜感激:
a)用于短字作为简单的例子\\bgood night\\b
为goo d ni g ht
b)句子中有换行符时。 我的意思是,即使段落相同,Regex表达式也无法从PDF中的一行搜索到另一行。 寻找\\bthe sun set and the night comes\\b
,但PDF内容类似于粘贴时的内容:
第1行: t he sun set an d th e
第2行: nig ht co m es
非常感谢,卡杜
单词中间空格的这种随机出现可以在PDF中发生。 其背后的原因是PDF实际上是复杂的格式。 您会看到,PDF文档实际上是在查看器中呈现文本的说明容器。
想象一下这样的指令:
每当您在查看器中选择某项内容(例如Adobe)时,该程序就必须找出与您的选择内容重叠的内容(这已经不是一个容易的问题了)。 如果是文本,则需要确定在何处添加空格和换行符。 不同的查看器(或软件)可能为此使用不同的指标。 例如,一个典型的例子是“如果两个字符比同一字体中的空格字符的宽度更远,则插入一个空格”
关键是,从PDF文档中提取文本始终是一种猜测。 而且,如果您添加的事实是它是OCR PDF,那么您将添加更多的困难。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.