正則表達式捕獲utf-8行分隔符

Question

似乎Javascript的本機正則表達式無法捕獲帶有內插行分隔符U + 2028的字符串。 例如，當我嘗試：

"a\u2028b".match(/(.*)/)

我只能捕獲“ a”，而不能捕獲完整的字符串。

是否有這種現象的原因，或者只是Javascript無法管理某些utf-8字符？ 有沒有辦法使用Javascript的本機正則表達式解決此問題？

Answer 1

那應該是這樣的。 為了匹配的目的. ， ^和$元字符U+2028和U+2029與\\r回車符和\\n （換行符）一起被分類為行分隔符。

...就是JavaScript。 每個正則表達式類型都有其自己的概念，即哪些字符是行分隔符。 例如，Java識別所有這些字符以及U+0085 （下一行或NEL）字符，而.NET僅識別\\n 。

Answer 2

使用此正則表達式：

"a\u2028b".match(/^[\s\S]*$/);
// matches ab

在javascript中. 與換行符不匹配，因此[\\s\\S]也與換行符匹配。