繁体   English   中英

在 linux 中使用 awk 或 sed 解析简单字符串

[英]Parsing simple string with awk or sed in linux

原始字符串:
A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/

目录的深度会有所不同,但 /trunk 部分将始终保持不变。 /trunk 前面的单个字符是该行的指示符。

所需的 output:

A /trunk/apple
B /trunk/apple
Z /trunk/orange
Q /trunk/melon/juice/venti/straw

*** 编辑
对不起,我犯了一个错误,在原始字符串的每个路径的末尾添加了一个斜杠,这使得 output 令人困惑。 原始字符串在大写字母前没有斜线,但我会保留它。

要处理复杂的样本输入,例如在单行中可能有 N 个/和值的位置,请尝试以下操作。

awk '
{
  gsub(/[^/]*\/trunk/,OFS"&")
  sub(/^ /,"")
  sub(/\//,OFS"&")
  gsub(/ +[^/]*\/trunk\/[^[:space:]]+/,"\n&")
  sub(/\n/,OFS)
  gsub(/\n /,ORS)
  gsub(/\/trunk/,OFS"&")
  sub(/[[:space:]]+/,OFS)
}
1
'  Input_file


对于您显示的示例,请尝试遵循awk代码。

awk '{gsub(/\/trunk/,OFS "&");gsub(/trunk\/[^/]*\//,"&\n")} 1' Input_file

对于多字符 RS 和 RT,使用 GNU awk:

$ awk -v RS='([^/]+/){2}[^/\n]+' 'RT{sub("/",OFS,RT); print RT}' file
A trunk/apple
B trunk/apple
Z trunk/orange

我将RS设置为描述您要匹配的每个字符串的正则表达式,即 2 次重复非/ s,然后是/ ,然后是非/ s 的最终字符串(以及输入行上最后一个字符串的非换行符)。 RT自动设置为每个匹配的字符串,所以我只需将第一个/更改为空白并打印结果。

如果每条路径并不总是 3 层深,但总是以something/trunk/开头,例如:

$ cat file
A/trunk/apple/banana/B/trunk/apple/Z/trunk/orange

然后:

$ awk -v RS='[^/]+/trunk/' 'RT{if (NR>1) print pfx $0; pfx=gensub("/"," ",1,RT)} END{printf "%s%s", pfx, $0}' file
A trunk/apple/banana/
B trunk/apple/
Z trunk/orange

awk ,您可以尝试此解决方案。 它处理下一个字符为大写时删除正斜杠的特殊要求。 不会赢得设计奖,但工作。

$ echo "A/trunk/apple/B/trunk/apple/Z/trunk/orange" | 
    awk -F '' '{ x=""; for(i=1;i<=NF;i++){ 
      if($(i+1)~/[A-Z]/&&$i=="/"){$i=""}; 
      if($i~/[A-Z]/){ printf x""$i" "}
      else{ x="\n"; printf $i } }; print "" }'
A /trunk/apple
B /trunk/apple
Z /trunk/orange

也适用于 n 个单词。 实际上适用于任何遵循给定模式的东西。

$ echo "A/fruits/apple/mango/B/anything/apple/pear/banana/Z/ball/orange/anything" | 
    awk -F '' '{ x=""; for(i=1;i<=NF;i++){
      if($(i+1)~/[A-Z]/&&$i=="/"){$i=""};
      if($i~/[A-Z]/){ printf x""$i" "}
      else{ x="\n"; printf $i } }; print "" }'
A /fruits/apple/mango
B /anything/apple/pear/banana
Z /ball/orange/anything

这可能对您有用(GNU sed):

sed 's/[^/]*/& /;s/\//\n/3;P;D' file

用空格将第一个单词与第一个/分开。

将第三个/替换为换行符。

打印/删除第一行并重复。


如果第一个单词的属性只有一个字符:

sed 's/./& /;s#/\(./\)#\n\1#;P;D' file

或者,如果第一个单词具有以大写字符开头的属性:

sed 's/[[:upper:]][^/]*/& /;s#/\([[:upper:][^/]*/\)#\n\1#;P;D' file

或者,如果第一个单词具有后跟/trunk/的属性:

sed -E 's#([^/]*)(/trunk/)#\n\1 \2#g;s/.//' file

使用gnu awk您可以使用 FPAT 使用模式设置每个字段的内容。

循环字段时,将第一个/替换为/

str1="A/trunk/apple/B/trunk/apple/Z/trunk/orange"

echo $str1 | awk -v FPAT='[^/]+/trunk/[^/]+' '{    
for(i=1;i<=NF;i++) {
    sub("/", " /", $i)
    print $i
    }
}'

模式匹配

  • [^/]+匹配除/以外的任何字符
  • /trunk/[^/]+匹配/trunk/和除/之外的任何字符

Output

A  /trunk/apple
B  /trunk/apple
Z  /trunk/orange

使用 GNU sed:

$ str="A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/"
$ sed -E 's|/?(.)(/trunk/)|\n\1 \2|g;s|/$||' <<< "$str"

A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

注意第一个空的 output 行。 如果不希望我们可以分开处理第一行 output 行:

$ sed -E 's|(.)|\1 |;s|/(.)(/trunk/)|\n\1 \2|g;s|/$||' <<< "$str"
A /trunk/apple
B /trunk/apple
Z /trunk/orange/citrus
Q /trunk/melon/juice/venti/straw

awk使用gsub()sub()函数:

awk '
{
gsub(/[[:upper:]]{1}/,"& ")
sub(/[[:upper:]]{1}$/,"\n&",$2)
sub(/[[:upper:]]{1}$/,"\n&",$3)
$1=$1
gsub(/[/]\n/,"\n")
} 1' file
A /trunk/apple
B /trunk/apple
Z /trunk/orange
  • 第一个gsub()默认应用于$0
  • 然后我们在sub()中对$2$3字段使用相同的正则表达式。
  • 重建: $1=$1
  • 最后,我们删除最后的/

假设您的数据将始终采用作为单个字符串提供的格式,您可以试试这个sed

$ sed 's/$/\//;s|\([A-Z]\)\([a-z/]*\)/\([a-z]*\?\)|\1 \2\3\n|g' input_file
$ echo "A/trunk/apple/pine/skunk/B/trunk/runk/bunk/apple/Z/trunk/orange/T/fruits/apple/mango/P/anything/apple/pear/banana/L/ball/orange/anything/S/fruits/apple/mango/B/rupert/cream/travel/scout/H/tall/mountains/pottery/barnes" | sed 's/$/\//;s|\([A-Z]\)\([a-z/]*\)/\([a-z]*\?\)|\1 \2\3\n|g'
A /trunk/apple/pine/skunk
B /trunk/runk/bunk/apple
Z /trunk/orange
T /fruits/apple/mango
P /anything/apple/pear/banana
L /ball/orange/anything
S /fruits/apple/mango
B /rupert/cream/travel/scout
H /tall/mountains/pottery/barnes

perl 带来一些乐趣,您可以使用非消耗正则表达式自动拆分为@F数组,然后随意打印。

perl -lanF'/(?=.{1,2}trunk)/' -e 'print "$F[2*$_] $F[2*$_+1]" for 0..$#F/2'

第 1 步:拆分

  • perl -lanF/(?=.{1,2}trunk)/'
  • 这将采用输入 stream,并在遇到模式.{1,2}trunk时分割每一行
  • 因为我们想要保留trunk和前面的 1 或 2 个字符,所以我们将拆分模式包装在(?=)中,以实现不消耗的前瞻
  • 这将事情分解成这样:
$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e 'print join " ", @F'
A /trunk/apple/ B /trunk/apple/ Z /trunk/orange/citrus/ Q /trunk/melon/juice/venti/straw/

第二步:格式化output:

  • @F数组包含我们要按顺序打印的对,因此我们将迭代一半的数组索引,并一次打印 2 个:
  • print "$F[2*$_] $F[2*$_+1]" for 0..$#F/2 --> 将迭代器加倍,并打印对
  • 使用perl -l意味着每个print在末尾都有一个隐含的\n
  • 结果:
$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e 'print "$F[2*$_] $F[2*$_+1]" for 0..$#F/2'
A /trunk/apple/
B /trunk/apple/
Z /trunk/orange/citrus/
Q /trunk/melon/juice/venti/straw/

尾注:Perl 混淆无效。

  • perl 中的任何数组都可以转换为格式为 (key,val,key,val....) 的 hash
  • 所以%F=@F; print "$_ $F{$_}" for keys %F %F=@F; print "$_ $F{$_}" for keys %F看起来真的很漂亮
  • 但是你失去了秩序:
$ echo A/trunk/apple/B/trunk/apple/Z/trunk/orange/citrus/Q/trunk/melon/juice/venti/straw/ | perl -lanF'/(?=.{1,2}trunk)/' -e '%F=@F; print "$_ $F{$_}" for keys %F'
Z /trunk/orange/citrus/
A /trunk/apple/
Q /trunk/melon/juice/venti/straw/
B /trunk/apple/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM