[英]Regular expression to match a number followed by a symbol repeated that many times?
如何创建可以匹配以下内容的RegEx:
a3bbb
aaaa3bbb
a4bbbb
aaa5bbbbb
即, a
(一次或多次),然后是非负数,然后b
'重复多次'(与a
和b
之间的数字一样多)。
这种语言有规律吗? 如果没有,我们可以为此构建一个CFG吗?
编辑:至于数字是否是单个数字,我会说不。 (也正如Daniel Centore和rici指出的那样,语言甚至不是CF.那么自然的问题是,它是上下文敏感的还是不受限制的?)
就像其他答案所说的那样,如果数字是无界的,那么语言既不规律(如果它是常规的,抽取引理说的是一个足够长的字符串, b
可以无限延长,也可以不受数字限制)也不是无上下文的(如果它没有上下文,抽取引理说数量足够长,数字和b
可以重复,但不正确)。
但是语言是上下文敏感的,因为它可以使用以下语法生成(为简单起见我为base-3编号,你可以扩展到基数10):
(1) S -> aS | aB (2) B -> BN | N (3) aN -> a0 | a1b | a2bb (4) 0N -> 00 | 01b | 02bb (5) 1N -> 10 | 11b | 12bb (6) 2N -> 20 | 21b | 22bb (7) bN -> WN (8) WN -> WX (9) WX -> NX (10)NX -> Nbbb
规则(1)是生成a
的
规则(2)是生成数字中的每个数字
规则(3) - (6)是用最大数量和b
的数量替换最左边的N
规则(7) - (10)是让N
“消耗”左边的b
,并产生3 b
(在10的基数为10 b
)。 技术上(7) - (10)只是bN -> Nbbb
。
例:
To generate: a102bbbbbbbbbbb (102 in base-3 = 11 in base-10) S aB (1b) aBN (2a) aBNN (2a) aNNN (2b) a1bNN (3b) a1NbbbN (7)-(10) a1NbbNbbb (7)-(10) a1NbNbbbbbb (7)-(10) a1NNbbbbbbbbb (7)-(10) a10Nbbbbbbbbb (5a) a102bbbbbbbbbbb (4c)
这种语言不规则(因此不能表示为RegEx)。 对语言规律性的一个测试是检查它是否可以由有限自动机表示。 可以证明,该语言不能表示为FA,因为FA至少需要与a
和b
之间的数字一样多的状态,但该数字不受限制。 但是,如果它是有界的( 例如 ,数字只能是1-10)那么它将是常规的。
该语言也不能表示为CFG,可以使用泵浦引理来表示。
如果数字是一个数字,那么语言是常规的(因为你可以只列出九个可能的后缀)。 但如果数字不受限制,语言就不规律了。 它甚至没有上下文。 因此,正则表达式和CFG都不可用。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.