簡體   English   中英

Python-使用正則表達式查找帶有垃圾字符的單詞

[英]Python - use regex to find words with garbage characters

我有一個經過掃描的文本,單詞中可能有一些垃圾字符。 垃圾字符通常不是字母數字或標點符號。

我有以下正則表達式:

garbage_pat = re.compile(r"(\w*(?P<and>[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:])+[\w(?P=and)]*)")

此正則表達式正確查找包含一個垃圾字符的單詞。 如果有兩個或多個垃圾字符,則正則表達式將拆分單詞。 例如,aut〜moil將分為兩個詞。 當包含兩個或多個垃圾字符時,我如何使我的正則表達式返回整個單詞。

似乎您正在尋找這樣的表達式:

(\w*(?:[^a-zA-Z0-9_ \t\n\r\f\v,.?!;:]\w*)+)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM