繁体   English   中英

如何从Perl正则表达式匹配中获得多个记忆?

[英]How can I get multiple memories from a Perl regex match?

正则表达式搜索的目的是确定C ++头文件中的所有模板类实例。 类实例可以形成如下:

CMyClass<int> myClassInstance;

CMyClass2<
int,
int
> myClass2Instacen;

通过将整个文件加载到字符串中来执行搜索:

open(FILE, $file);
$string = join('',<FILE>);
close(FILE);

以下正则表达式用于确定类实例,即使类实例跨越字符串中的多行:

$search_string = "\s*\w[^typename].*<(\s*\w\s*,?\n?)*)>\s*\w+.*";
$string =~ m/$search_string/; 

问题是,即使文件中存在更多类实例,搜索也只返回一个命中。

是否有可能通过使用这种方法从一个正则表达式反向引用变量获得所有命中?

首先,如果你要打嗝文件,你应该使用File :: Slurp 然后你可以这样做:

my $contents = read_file $file;

read_file会出错。

其次,[^ typename]不排除字符串'typename',也不排除包含任何这些字符的任何字符串。 除此之外,对我来说,使用的模式将始终与您希望匹配的内容相匹配,这一点并不明显,但我现在无法对此发表评论。

最后,要逐个获取文件中的所有匹配项,请在循环中使用g修饰符:

my $source = '3 5 7';

while ( $source =~ /([0-9])/g ) {
    print "$1\n";
}

既然我有机会看看你的模式,我仍然不确定要做什么[^ typename],但是这里是一个示例程序,捕获尖括号之间的部分(因为这似乎是唯一的你正在捕捉的东西):

use strict;
use warnings;

use File::Slurp;

my $pattern = qr{
    ^
    \w+                    
    <\s*((?:\w+(?:,\s*)?)+)\s*> 
    \s*
    \w+\s*;
}mx;

my $source = read_file \*DATA;

while ( $source =~ /$pattern/g ) {
    my $match = $1;
    $match =~ s/\s+/ /g;
    print "$match\n";
}

__DATA__
CMyClass<int> myClassInstance;

CMyClass2<
int,
int
> myClass2Instacen;

C:\Temp> t.pl
int
int, int

现在,我怀疑你会更喜欢以下内容:

my $pattern = qr{
    ^
    (
      \w+                    
      <\s*(?:\w+(?:,\s*)?)+\s*> 
      \s*
      \w+
    )
    \s*;
}mx;

产量:

C:\Temp> t.pl
CMyClass<int> myClassInstance
CMyClass2< int, int > myClass2Instacen

你需要的是\\G修饰符。 它会在最后一场比赛后开始你的字符串的下一场比赛。

以下是Perl Doc的文档(因此链接出现问题,因此您必须复制并粘贴):

http://perldoc.perl.org/perlfaq6.html#What-good-is-'%5cG'-in-a-regular-expression%3f

我会做这样的事情,


#!/usr/bin/perl -w
use strict;
use warnings;

local(*F);
open(F,$ARGV[0]);
my $text = do{local($/);};
my (@hits) = $text =~ m/([a-z]{3})/gsi;

print "@hits\n";

假设你有一些像这样的文本文件,

/home/user$ more a.txt
a bb dkl jidij lksj lai suj ldifk kjdfkj bb
bb kdjfkal idjksdj fbb kjd fkjd fbb  kadfjl bbb
bb bb bbd i

这将打印出正则表达式的所有命中:


/home/user$ ./a.pl a.txt
dkl jid lks lai suj ldi kjd fkj kdj fka idj ksd fbb 
kjd fkj fbb kad fjl bbb bbd


并使用相同的方法解决您的问题,可能看起来像,


#!/usr/bin/perl -w                                                                                                           
use strict;
use warnings;

my $text = <<ENDTEXT;
 CMyClass<int> myClassInstance;

CMyClass2<
int,
int
> myClass2Instacen;


CMyClass35<
int,
int
    > myClass35Instacen;

ENDTEXT

my $basename = "MyClass";
my (@instances) = $text =~ m/\s*(${basename}[0-9]*\s*\<.*?                                                                
                            (?=\>\s*${basename})                                                                          
                            \>\s*${basename}.*?;)/xgsi;

for(my $i=0; $i<@instances; $i++){
    print $i."\t".$instances[$i]."\n\n";
}

当然,您可能需要更多地调整正则表达式以适应数据中的所有边缘情况,但这应该是一个非常好的开始。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM