[英]Python regex to match “spaced out” words
在處理使用光學字符識別(OCR)生成的文本文件時,我經常遇到線段或部分線段
t h a t a r e s p a c e d o u t l i k e t h i s.
我希望能夠使用正則表達式來匹配這些單詞並將這些字母粉碎在一起。 但是我不知道如何使用捕獲組或我通常的正則表達式知識工具箱來執行此操作。
那可能是您要尋找的:
re.sub(r' (.)', r'\1', txt)
嘗試這個:
re.sub(r' \b', r'', txt)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.