繁体   English   中英

在Java中使用正则表达式使用不可打印的字符

[英]use regex in java with non printable chars

我正在使用在这里找到的正则表达式( link )来提取正常工作的域字符串。

正则表达式是

^((?!-)[A-Za-z0-9-]{1,63}(?<!-)\\.)+[A-Za-z]{2,6}$

我想知道,如何更改它以匹配包含不可打印字符而不是点(。)的域?

我知道正则表达式代码类似于\\ x01,\\ x02等。但是,如果我用其中之一替换点,则正则表达式不再匹配

提前致谢

您的点在这里逃脱了。

您需要删除双转义符( \\\\ )并将点替换为文字以使其匹配。

您也可以删除双转义符并保留与任何字符匹配的点。

将匹配任何单个字符,无论它是否可打印。 您当前的群组[A-Za-z0-9-]对其进行了限制。 您可以将其更改为“除文字点以外的任何字符” ...即[^。]。

Pattern regex = Pattern.compile("^((?!-)[^.]{1,63}(?<!-)\\.)+[A-Za-z]{2,6}$");
System.out.println(regex.matcher("\u0001\u0002\u0003\u0004..com").find()); // => false
System.out.println(regex.matcher("\u0001\u0002\u0003\u0004.com").find()); // => true
System.out.println(regex.matcher("google.com").find()); // => true

如果您尝试验证IDN(国际域名)的用户输入,请注意,有一些新的gTLD包含非字母数字字符,例如.شبكة(.network)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM