[英]Python regex to match “spaced out” words
在处理使用光学字符识别(OCR)生成的文本文件时,我经常遇到线段或部分线段
t h a t a r e s p a c e d o u t l i k e t h i s.
我希望能够使用正则表达式来匹配这些单词并将这些字母粉碎在一起。 但是我不知道如何使用捕获组或我通常的正则表达式知识工具箱来执行此操作。
那可能是您要寻找的:
re.sub(r' (.)', r'\1', txt)
尝试这个:
re.sub(r' \b', r'', txt)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.