[英]How to account for an ignore list of words in the following regular expression?
我有一个正则表达式,可以将文本分解为句子。 但是,正则表达式用“ ie”之类的缩写弄乱了。 有没有办法让我们说一个缩写列表?
我有的:
$sentences = preg_split('/(?<=[.?!])\s+(?=[a-z])/i', $string);
这对于普通字符串非常有用,但是如果使用的是带有“ ie”的文本,则会在句点处将其分割。 有什么建议么?
试一下:
(?<=(?<!\b(?:[i\.e\.])\b)[.!?])\s+(?=[\w])
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.