簡體   English   中英

Python正則表達式可匹配“隔開”的單詞

[英]Python regex to match “spaced out” words

在處理使用光學字符識別(OCR)生成的文本文件時,我經常遇到線段或部分線段

t h a t  a r e  s p a c e d  o u t  l i k e  t h i s.

我希望能夠使用正則表達式來匹配這些單詞並將這些字母粉碎在一起。 但是我不知道如何使用捕獲組或我通常的正則表達式知識工具箱來執行此操作。

那可能是您要尋找的:

re.sub(r' (.)', r'\1', txt)
(?<=\s\s|^)((?:\w\s|\w\.)+)

這將起作用。

觀看演示

嘗試這個:

re.sub(r' \b', r'', txt)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM