![](/img/trans.png)
[英]Java & Regex: Matching a substring that is not preceded by specific characters
[英]Matching alphabetical characters with Java Regex which are not preceded by percent sign
我想要一个像这样的字符串: ab%cde%fg hij %klm n%op
并将其转换为任何(都可以接受):
'ab'%c'de'%f'g hij '%k'lm n'%o'p'
'ab'%c'de'%f'g' 'hij' %k'lm' 'n'%o'p'
'a''b'%c'd''e'%f'g' 'h''i''j' %k'l''m' 'n'%o'p'
(如果字母字符前没有%
,则必须将其放在单引号内。可以使用开和闭多余的单引号)
我正在尝试采用C strftime
格式的字符串,并将其转换为可与Java的SimpleDateFormat
。 在大多数情况下,这很简单:
String format = "%y-%m-%d %H:%M:%S";
Map<String, String> replacements = new HashMap<String, String>() {{
put("%a", "EEE");
put("%A", "EEEE");
put("%b", "MMM");
put("%B", "MMMM");
put("%c", "EEE MMM dd HH:mm:ss yyyy");
// ... for each strftime token, create a mapping ...
}};
for ( String key : replacements.keySet() )
{
// apply the mappings one at a time
format = format.replaceAll(key, replacements.get(key));
}
// Then format
SimpleDateFormat df = new SimpleDateFormat(format, Locale.getDefault());
System.out.println(df.format(Calendar.getInstance().getTime()));
但是,当我介绍字符文字时,就会遇到问题。 根据strftime
文档, 所有不带百分号的字符文字都将传递而不修改输出字符串。 所以:
Format: "%y is a great year!"
Output: "2019 is a great year!"
但是,对于SimpleDateFormat
,所有字符文字均被视为标记,除非用单引号引起来:
Format: "yyyy 'is a great year!'"
Output: "2019 is a great year!"
Format: "yyyy is a great year!"
Output: ERROR - invalid token "i"
由于strftime
令牌始终是单个字符 ,因此修复我们的格式字符串应该不会太困难。 在最坏的情况下,“如果一个字母不是由前面%
的标志,把它包在单引号”,这将导致:
Format: "%y is a great year!"
Processed: "%y 'i''s' 'a' 'g''r''e''a''t' 'y''e''a''r'!"
这很丑陋,但会达到预期效果,并且是可以接受的答案。 理想情况下,我们将包装所有不包含%
的字母字符 ,如下所示:
Format: "%y is a great year!"
Processed: "%y 'is' 'a' 'great' 'year'!"
或者更好的是,所有运行都包括非字母和非%
字符 :
Format: "%y is a great year!"
Processed: "%y' is a great year!'"
我从一个毫无头脑的正则表达式开始,我很确定那是行不通的,并且没有:
format.replaceAll("[^%]([a-zA-Z]+)", "'$1'");
// Format: "Literal %t Literal"
// Output: "'iteral' %t'Literal'"
// Expected: "'Literal' %t 'Literal'"
我对后向引用没有足够的了解,所以我给了他们一个旋转,但也弄乱了那里的东西:
format.replaceAll("(?!%)([a-zA-Z]+)", "'$1'");
// Format: "Literal %t Literal"
// Output: "'Literal' %'t' 'Literal'"
// Expected: "'Literal' %t 'Literal'"
我还考虑过编写一个非常简单的词法分析器。 就像是:
StringBuffer s = new StringBuffer();
boolean inQuote = false;
for (int i = 0; i < format.length; i++)
{
if (format[i] == '%')
{
i++;
s.append(replacements.get(format[i]);
}
else if (inQuote)
{
s.append(format[i]);
}
else
{
s.append("'");
inQuote = true;
s.append(format[i]);
}
}
但是,我了解到format[i]
不是有效的Java语法,并且在我决定只在此处发表文章之前,没有花太多时间研究如何从字符串中正确获取字符。
我希望使用正则表达式解决方案,以便可以将其写在一行中,而不是像这样的循环。
已更新为可使用单个正则表达式。 可以添加其他格式以测试正确性。
String[] formats = { "ab%cde%fg hij %klm n%op", "ab%c", "%d"
};
for (String f : formats) {
String parsed = f.replaceAll("(^[a-z]+|(?<=%[a-z])([a-z ]+))", "'$1'");
System.out.println(parsed);
}
两种可能性是:
%[az]
所有字符[az]+
放在单引号之间。 %
之前且以上未包括的字符放在单引号之间。 既然已经考虑过,为什么不使用几个replaceAll函数呢?
首先,对所有连续的字符串添加单引号;
然后,将单引号前跟%移一个字符;
最后,删除空引号。
以下是我在Python中的测试代码。 我相信它也可以在其他语言(例如Java)中使用。
>>> str1=re.sub("([a-zA-Z]+)","'\g<1>'",input)
>>> str2=re.sub("%'([a-zA-Z])'","%\g<1>",str1)
>>> str3=re.sub("''","",str2)
>>> str1
"'Literal' %'t' 'Literal'"
>>> str2
"'Literal' %t 'Literal'"
>>> str3
"'Literal' %t 'Literal'"
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.