[英]Regular expression with optional group wrapping multiple groups returns undefined for branches not taken
我正在尝试用JavaScript写一个正则表达式,该表达式返回不带引号(如果存在)的字符串中第一个带引号或未引号的单词。 例如:
'"quoted phrase" followed by text' => 'quoted phrase'
'phrase without quotes followed by text' => 'phrase'
我的正则表达式当前是这样的:( (?:"([^"]*)"|([^"\\s]+))
但是,我要注意的是,输出始终包含两个匹配组,一个始终是未定义的匹配组,大概是未使用的分支(即,如果第一个单词未加引号,则为第一个匹配,否则为第二个)。
为了避免得到undefined
匹配组并仍然出现带引号的行为,我可以进行哪些更改?
注意:单词不是严格的“仅单词”(例如字母数字)字符。 它们可以包含非单词字符,而不能包含"
字符。
由于您在正则表达式中定义了嵌套分组,因此您获得了额外的匹配项。 正确的表达式应该是(?:"[^"]*"|[^"\\s]+)
,它将为您的输入生成以下内容(不带引号)
'"quoted phrase" followed by text' => "quoted phrase" 'phrase without quotes followed by text' => phrase
您不能仅使用正则表达式来完成您想做的事情。 其他正则表达式版本具有强大的功能,例如“分支重置组”(这会使每个分支中的捕获组以相同的数字开头):
(?|"([^"]*)"|([^"\s]+))
...或者让您为多个组使用相同的名称:
(?:"(?<token>[^"]*)"|(?<token>[^"\s]+))
...但是JavaScript一无所有。 在与编程语言(Perl,Python,Java等)相关的所有regex风格中,JavaScript是最缺乏有用功能的。 您只需要遍历所有组并找到undefined
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.