簡體   English   中英

用於在OCR PDF中搜索空格/斷行詞的正則表達式(goo d ni g ht)

[英]Regex expression for searching spaced/broken words in OCR PDFs (goo d ni g ht)

我需要搜索許多OCR PDF。 我意識到單詞和句子在視覺上是完美的,但是如果我復制粘貼內容,那么其中的空格將不存在!

我可以在文字中看到: good night

如果我復制並粘貼到某處: goo d ni g ht

考慮到通過Regex表達式處理這種情況的建議,我將不勝感激:

a)用於短字作為簡單的例子\\bgood night\\bgoo d ni g ht

b)句子中有換行符時。 我的意思是,即使段落相同,Regex表達式也無法從PDF中的一行搜索到另一行。 尋找\\bthe sun set and the night comes\\b ,但PDF內容類似於粘貼時的內容:

第1行: t he sun set an d th e

第2行: nig ht co m es

非常感謝,卡杜

單詞中間空格的這種隨機出現可以在PDF中發生。 其背后的原因是PDF實際上是復雜的格式。 您會看到,PDF文檔實際上是在查看器中呈現文本的說明容器。

想象一下這樣的指令:

  • 轉到位置50、50。
  • 畫出字符“ G”
  • 轉到位置56、50。
  • 畫出字符“ O”
  • 等等

每當您在查看器中選擇某項內容(例如Adobe)時,該程序就必須找出與您的選擇內容重疊的內容(這已經不是一個容易的問題了)。 如果是文本,則需要確定在何處添加空格和換行符。 不同的查看器(或軟件)可能為此使用不同的指標。 例如,一個典型的例子是“如果兩個字符比同一字體中的空格字符的寬度更遠,則插入一個空格”

關鍵是,從PDF文檔中提取文本始終是一種猜測。 而且,如果您添加的事實是它是OCR PDF,那么您將添加更多的困難。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM