繁体   English   中英

大写单词的正则表达式

[英]Regular Expression for uppercase words

我有很多文档需要将文本分解为大块,文档中包含需要将大写单词分解为文本的文本

LORUM ipsum dolor sit amet, consectetur adipiscing elit, SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

会成为

LORUM ipsum dolor sit amet, consectetur adipiscing elit, 

SED DO eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, 

TOTAM REP aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. NEQUE porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. 

UT ENIM AD minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?

我尝试搜索\\b[AZ](.*?)+\\b返回大写单词,并且我尝试过\\b[AZ](.*?)+\\b(.*?)\\b[AZ](.*?)+\\b对于一些文档来说很接近,但是在其他文档(包括Lorem Ipsum示例)上却失败了。

这里的一种匹配方法是匹配连续的空格分隔的ALLCAPS单词,然后匹配任何未以2个大写字母开头的字符:

\b[A-Z]+(?:\s+[A-Z]+)*(?:(?![A-Z]{2}).)*

正则表达式演示

如果ALLCAPS单词必须至少包含2个字母,请使用限制量词而不是+

\b[A-Z]{2,}(?:\s+[A-Z]{2,})*(?:(?![A-Z]{2}).)*
       ^^^            ^^^^

图案细节

  • \\b前导词边界
  • [AZ]+ -1个或多个大写ASCII字母
  • (?:\\s+[AZ]+)* -零个或多个序列:
    • \\s+ -1+空格
    • [AZ]+ -1+个大写ASCII字母
  • (?:(?![AZ]{2}).)* -与所有不以2个大写ASCII字母序列开头的char匹配的钢化贪婪令牌。

preg_split()将成为其中的一部分:

$result = preg_split('/([A-Z][A-Z ]+)/',
                     $string,
                     null,
                     PREG_SPLIT_NO_EMPTY | PREG_SPLIT_DELIM_CAPTURE);
  • 分割为大写字母,然后再输入更多大写字母或空格[AZ][AZ ]+
  • 也使用PREG_SPLIT_DELIM_CAPTURE捕获匹配()

然后,除非有人在preg_split()有更好的方法:

$result = array_map(function($v) {
                        return implode(' ', $v);
                    },
                    array_chunk($result, 2));
  • 将数组分成大写匹配对和之后的对
  • 放大对

然后,如果您希望它返回带有换行符的字符串:

$result = implode("\n", $result);

这个正则表达式应该起作用: [AZ]\\w+它选择所有大写[AZ]单词\\w+

尝试搜索此正则表达式: (\\s)(([AZ]+\\s\\b)+)

并用以下内容替换: \\n\\2或以下内容: \\n\\n\\2 ,以介于两行之间。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM