Python正則表達式可匹配“隔開”的單詞

Question

在處理使用光學字符識別（OCR）生成的文本文件時，我經常遇到線段或部分線段

t h a t  a r e  s p a c e d  o u t  l i k e  t h i s.

我希望能夠使用正則表達式來匹配這些單詞並將這些字母粉碎在一起。 但是我不知道如何使用捕獲組或我通常的正則表達式知識工具箱來執行此操作。

Answer 1

那可能是您要尋找的：

re.sub(r' (.)', r'\1', txt)

Answer 2

(?<=\s\s|^)((?:\w\s|\w\.)+)

這將起作用。

觀看演示

Answer 3

嘗試這個：

re.sub(r' \b', r'', txt)