[英]Regex find words that have at least X characters with no more than Y sequential repetitions of a character
我有很多OCR文字,其中包含很多不需要的文字。 當前的問題是找到單詞中至少包含3個字符,但同一字符的連續重復次數不超過3個。
我已經獲得了兩個不同的Regex表達式適用於兩個不同的規則,但不確定如何組合它們
這與三個連續重復的單詞相匹配:(與下一個相結合時需要取反)(。*)\\ 1 {2,}
此詞匹配具有3個或更多字母字符的單詞\\ b [a-zA-Z] {3,} \\ b
我現在需要將這兩個加在一起並做一個表達式。 這里有些例子
我要匹配的詞
我不想匹配的詞
任何幫助將不勝感激。
使用負前瞻來檢測重復字符。 您已經知道解決方案的其余部分了:-)
/\b(?![a-z]*?([a-z])\1{2})[a-z]{3,}\b/i
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.