繁体   English   中英

Python正则表达式可匹配“隔开”的单词

[英]Python regex to match “spaced out” words

在处理使用光学字符识别(OCR)生成的文本文件时,我经常遇到线段或部分线段

t h a t  a r e  s p a c e d  o u t  l i k e  t h i s.

我希望能够使用正则表达式来匹配这些单词并将这些字母粉碎在一起。 但是我不知道如何使用捕获组或我通常的正则表达式知识工具箱来执行此操作。

那可能是您要寻找的:

re.sub(r' (.)', r'\1', txt)
(?<=\s\s|^)((?:\w\s|\w\.)+)

这将起作用。

观看演示

尝试这个:

re.sub(r' \b', r'', txt)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM