如何使用Perl在正则表达式替换的连续匹配之间散布字符？

Question

以下逗号分隔值行包含几个连续的空字段：

$rawData = 
"2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,Clear\n
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,,,\n"

我想用'N / A'值替换这些空字段，这就是为什么我决定通过正则表达式替换它。

我首先尝试了这个：

$rawdata =~ s/,([,\n])/,N\/A/g; # RELABEL UNAVAILABLE DATA AS 'N/A'

哪个回来了

2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,N/A,Clear\n
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,N/A,,N/A,\n

不是我想要的。 出现两个以上连续逗号时会出现此问题。 正则表达式一次吞噬两个逗号，所以它从第三个逗号开始，而不是第二个逗号重新扫描字符串时。

我认为这可能与lookahead vs. lookback断言有关，所以我尝试了以下正则表达式：

$rawdata =~ s/(?<=,)([,\n])|,([,\n])$/,N\/A$1/g; # RELABEL UNAVAILABLE DATA AS 'N/A'

结果导致：

2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,N/A,Clear\n
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,N/A,,N/A,,N/A,,N/A\n

那也行不通。 它只是将逗号配对移动了一个。

我知道通过相同的正则表达式两次清洗这个字符串会做到这一点，但这看起来很粗糙。 当然，必须有一种方法可以让一个正则表达式替换来完成这项工作。 有什么建议么？

最终字符串应如下所示：

2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,N/A,N/A,Clear\n
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,N/A,,N/A,N/A,N/A,N/A,N/A\n

Answer 1

编辑：请注意，您可以打开数据字符串的文件句柄，让readline处理行结尾：

#!/usr/bin/perl

use strict; use warnings;
use autodie;

my $str = <<EO_DATA;
2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,Clear
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,,,
EO_DATA

open my $str_h, '<', \$str;

while(my $row = <$str_h>) {
    chomp $row;
    print join(',',
        map { length $_ ? $_ : 'N/A'} split /,/, $row, -1
    ), "\n";
}

输出：

E:\Home> t.pl
2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,N/A,Clear
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,N/A,N/A,N/A,N/A

您还可以使用：

pos $str -= 1 while $str =~ s{,(,|\n)}{,N/A$1}g;

说明：当s///找到一个,,并用,N/A,替换它时,N/A,它已经移动到最后一个逗号后面的字符。 所以，如果你只使用它，它会遗漏一些连续的逗号

$str =~ s{,(,|\n)}{,N/A$1}g;

因此，在每次成功替换后，我使用循环将pos $str移回一个字符。

现在，正如@ysth所示：

$str =~ s!,(?=[,\n])!,N/A!g;

将使while不必要的。

Answer 2

我无法弄清楚你在后面的示例中想要做什么，但我怀疑你在那里遇到了一个优先级错误，并且在lookbehind之后的所有内容都应该包含在(?: ... )所以| 不会避免做后卫。

从头开始，您尝试做的事情听起来很简单：如果后面跟着另一个逗号或换行符，请在逗号后面放置N / A：

s!,(?=[,\n])!,N/A!g;

例：

my $rawData = "2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,Clear\n2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,,,\n";

use Data::Dumper;
$Data::Dumper::Useqq = $Data::Dumper::Terse = 1;
print Dumper($rawData);
$rawData =~ s!,(?=[,\n])!,N/A!g;
print Dumper($rawData);

输出：

"2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,Clear\n2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,,,\n"
"2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,N/A,Clear\n2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,N/A,N/A,N/A,N/A\n"

Answer 3

你可以搜索

(?<=,)(?=,|$)

并用N / A代替。

此正则表达式匹配两个逗号之间或逗号和行尾之间的（空）空格。

Answer 4

快速而肮脏的黑客版本：

my $rawData = "2008-02-06,8:00 AM,14.0,6.0,59,1027,-9999.0,West,6.9,-,N/A,,Clear
2008-02-06,9:00 AM,16,6,40,1028,12,WNW,10.4,,,,\n";
while ($rawData =~ s/,,/,N\/A,/g) {};
print $rawData;

不是最快的代码，但最短的。 它应该最多循环两次。

Answer 5

不是正则表达式，但也不是太复杂：

$string = join ",", map{$_ eq "" ? "N/A" : $_} split (/,/, $string,-1);

最后需要,-1 ，强制split以包括字符串末尾的任何空字段。

如何使用Perl在正则表达式替换的连续匹配之间散布字符？

问题描述

5 个解决方案

解决方案1
3 2009-10-29 19:54:05

解决方案2
2 已采纳 2009-10-29 20:12:40

解决方案3
2 2009-10-29 20:13:01

解决方案4
1 2009-10-29 20:10:57

解决方案5
1 2009-10-29 20:16:46

如何使用Perl在正则表达式替换的连续匹配之间散布字符？

问题描述

5 个解决方案

解决方案1 3 2009-10-29 19:54:05

解决方案2 2 已采纳 2009-10-29 20:12:40

解决方案3 2 2009-10-29 20:13:01

解决方案4 1 2009-10-29 20:10:57

解决方案5 1 2009-10-29 20:16:46

解决方案1
3 2009-10-29 19:54:05

解决方案2
2 已采纳 2009-10-29 20:12:40

解决方案3
2 2009-10-29 20:13:01

解决方案4
1 2009-10-29 20:10:57

解决方案5
1 2009-10-29 20:16:46