awk和/或sed命令用于对XML中重复标记的值求和

Question

我有一个XML，其中<Amt Ccy="EUR">3.1</Amt Ccy="EUR">标签重复。 这（Ccy可能会有所不同）在另一个标签<Main> 。 我需要总结<Amt Ccy="EUR"> （Ccy可能会有所不同）的所有值，只能在<Main>使用awk和/或sed命令。

可以帮一些忙吗？

示例如下所示

<root>
    <Main>
            <someothertag>..</someothertag>
        <Amt Ccy="EUR">3.1</Amt>
    </Main>
                .
                .
                .
                some other tags
    <Main>
          <someothertag>..</someothertag>
             <Amt Ccy="SGD">51</Amt>
    </Main>
    <another>
      <Amt Ccy="EUR">10</Amt>
     </another>
</root>

Answer 1

您的描述与提供的示例文件之间存在一些不一致，以及xml文件中的一些技术错误。 以下是我认为您正在寻找使用awk ：

awk '/<Main>/ { f=1 } f && /Amt/ { split($0,a,/[<>]/); s+=a[3] } /<\/Main>/ { f=0 } END { print "The sum is:", s }' file

结果

The sum is: 54.1

请注意，我使用的正则表达式可能需要调整，具体取决于您的输入。 如果上述脚本失败，请考虑使用更多样本数据和预期输出编辑您的问题。 然后我们将能够进一步帮助您。 此外，根据注释，您可能需要考虑为此作业使用适当的xml解析器。

编辑：

从下面的评论中，以下内容应计算不同货币的总和，这些货币必须在<Main>和</Main>标签内。

awk '/<Main>/ { f=1 } f && /<Amt.*Amt>/ { split($0,a,/[<>"]/); b[a[3]]+=a[5] } /<\/Main>/ { f=0 } END { for (i in b) printf "The sum of %s is: %s\n", i, b[i] | "sort" }' file

结果：

The sum of EUR is: 3.1
The sum of SGD is: 51

Answer 2

echo "cat /root//Amt" |                            \
    xmllint --shell input.xml |                    \
    sed -n '/EUR/{s/[^>]*> *\([0-9.]*\).*/\1/p}' | \
    awk '{sum+=$1} END{print sum;}'

Answer 3

通常，在需要搜索XML文件时，最好使用XML解析器。

但是如果你的文件很简单，并且每行只包含一个<Amt Ccy="EUR">...</Amt>而没有别的：

awk -F "[<>]" '$0 ~ "^[ \t]*<Amt Ccy=\"EUR\">.*</Amt>" { sum += $3}
               END { print sum }' your_file

我在做什么

仅选择以0或更多空格/制表符开头并与您的特定标签匹配的行，
使用<和>作为字段分隔符，您的金额为字段编号3，
汇总所有选定行的金额，
在脚本末尾打印总和。

Answer 4

鉴于以下数据

$ cat data.xml
<root>
    <Main>
            <someothertag>..</someothertag>
        <Amt Ccy="EUR">3.1</Amt>
    </Main>
    <Main>
          <someothertag>..</someothertag>
             <Amt Ccy="SGD">51</Amt>
    </Main>
    <another>
      <Amt Ccy="EUR">10</Amt>
     </another>
</root>

下列

$ echo "cat ///Amt[@Ccy='EUR']/text()" | xmllint --shell data.xml | awk '{s+=$1} END{print s}'
13.1

使用xmllint命令使用Xpath表达式解析Euro“Amt”XML标记的值。 然后结果集由awk求和。

使用Xpath是处理XML的更原生的方式。

Answer 5

如果gawk可用，您可以使用记录分隔符模式来匹配XML标记。 下面的模式匹配以<开头的内容，后跟不是>一次或多次的字符，并以>结尾。 当gawk与RS匹配时，它会将匹配的文本分配给RT。 这为我们提供了一种匹配标记，检查标记并处理它们之间嵌入的值的方法。

gawk '

  BEGIN { RS="<[^>]+>" }  

  RT == "</Amt>"  { 
    if (previousTag ~ "EUR") { eTotal += $0 }
  } 

  { previousTag = RT; } 

  END { print eTotal }'  myFile

对于给定的样本，上面将打印出13.1。 如果我们想要对每种货币求和，则可以使用previousTag作为awk数组/ hashmap键的基础。

Answer 6

也许有人会发现以下方法有用。

有xpath sum（）函数，可以用来避免使用xmllint以外的工具来总结结果：

echo "xpath sum(///Amt[@Ccy='EUR'])"|xmllint --shell data.xml

awk和/或sed命令用于对XML中重复标记的值求和

问题描述

6 个解决方案

解决方案1
1 2012-12-26 15:39:56

解决方案2
1 2012-12-27 07:38:51

解决方案3
0 2012-12-26 15:48:00

解决方案4
0 已采纳 2012-12-27 12:27:14

解决方案5
0 2014-09-19 02:12:56

解决方案6
0 2015-08-19 11:32:40

awk和/或sed命令用于对XML中重复标记的值求和

问题描述

6 个解决方案

解决方案1 1 2012-12-26 15:39:56

解决方案2 1 2012-12-27 07:38:51

解决方案3 0 2012-12-26 15:48:00

解决方案4 0 已采纳 2012-12-27 12:27:14

解决方案5 0 2014-09-19 02:12:56

解决方案6 0 2015-08-19 11:32:40

解决方案1
1 2012-12-26 15:39:56

解决方案2
1 2012-12-27 07:38:51

解决方案3
0 2012-12-26 15:48:00

解决方案4
0 已采纳 2012-12-27 12:27:14

解决方案5
0 2014-09-19 02:12:56

解决方案6
0 2015-08-19 11:32:40