Python正则表达式可匹配“隔开”的单词

Question

在处理使用光学字符识别（OCR）生成的文本文件时，我经常遇到线段或部分线段

t h a t  a r e  s p a c e d  o u t  l i k e  t h i s.

我希望能够使用正则表达式来匹配这些单词并将这些字母粉碎在一起。 但是我不知道如何使用捕获组或我通常的正则表达式知识工具箱来执行此操作。

Answer 1

那可能是您要寻找的：

re.sub(r' (.)', r'\1', txt)

Answer 2

(?<=\s\s|^)((?:\w\s|\w\.)+)

这将起作用。

观看演示

Answer 3

尝试这个：

re.sub(r' \b', r'', txt)