簡體   English   中英

正則表達式查找至少包含X個字符且每個字符不超過Y個連續重復的單詞

[英]Regex find words that have at least X characters with no more than Y sequential repetitions of a character

我有很多OCR文字,其中包含很多不需要的文字。 當前的問題是找到單詞中至少包含3個字符,但同一字符的連續重復次數不超過3個。

我已經獲得了兩個不同的Regex表達式適用於兩個不同的規則,但不確定如何組合它們

這與三個連續重復的單詞相匹配:(與下一個相結合時需要取反)(。*)\\ 1 {2,}

此詞匹配具有3個或更多字母字符的單詞\\ b [a-zA-Z] {3,} \\ b

我現在需要將這兩個加在一起並做一個表達式。 這里有些例子

我要匹配的詞

  • 插口
  • 松弛
  • Traack
  • Maacka

我不想匹配的詞

  • 江淮(不夠長)
  • Slaaack(具有3個“ A”的重復序列)

任何幫助將不勝感激。

使用負前瞻來檢測重復字符。 您已經知道解決方案的其余部分了:-)

/\b(?![a-z]*?([a-z])\1{2})[a-z]{3,}\b/i

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM