提取包含帶有sed的特定字符串的XML元素

Question

我有一個像下面的文件

  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show databases"/>
  <AUDIT_RECORD TIMESTAMP="2013-07-29T17:27:53" NAME="Quit" CONNECTION_ID="12" STATUS="0"/>
  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show grants for root@localhost"/>
  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="create table stamp like paper"/>

在這里，每個記錄都以<AUDIT_RECORD開頭，以"/>結尾，並且該記錄可能分布在多行中。

我的要求是顯示如下結果

  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show databases"/>
  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show grants for root@localhost"/>
  <AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="create table stamp like paper"/>

為此，我用了

sed -n "/Query/,/\/>/p" file.txt

但是它將顯示整個文件，包括帶有字符串“ Quit”的記錄。

有人可以幫我嗎？ 另外請讓我知道是否可以完全匹配名為“ Query”的字符串（例如grep -w "Query" ）。

Answer 1

使用GNU awk，您可以將RS設置為多個字符：

$ cat file
<AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query"
                CONNECTION_ID="10" STATUS="0" SQLTEXT="show databases"/>
<AUDIT_RECORD TIMESTAMP="2013-07-29T17:27:53"
        NAME="Quit" CONNECTION_ID="12" STATUS="0"/>
<AUDIT_RECORD
        TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10"
     STATUS="0" SQLTEXT="show grants for root@localhost"/>
<AUDIT_RECORD
        TIMESTAMP="2013-07-30T17:52:29"
        NAME="Query"
        CONNECTION_ID="10"
        STATUS="0"
        SQLTEXT="create table stamp like paper"/>
$
$ gawk -v RS='\\/>\n' -v ORS= '/Query/{print $0 RT}' file
<AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query"
                CONNECTION_ID="10" STATUS="0" SQLTEXT="show databases"/>
<AUDIT_RECORD
        TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10"
     STATUS="0" SQLTEXT="show grants for root@localhost"/>
<AUDIT_RECORD
        TIMESTAMP="2013-07-30T17:52:29"
        NAME="Query"
        CONNECTION_ID="10"
        STATUS="0"
        SQLTEXT="create table stamp like paper"/>
$
$ gawk -v RS='\\/>\n' -v ORS= '/Query/{$1=$1; print $0 RT}' file
<AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show databases"/>
<AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="show grants for root@localhost"/>
<AUDIT_RECORD TIMESTAMP="2013-07-30T17:52:29" NAME="Query" CONNECTION_ID="10" STATUS="0" SQLTEXT="create table stamp like paper"/>

Answer 2

我同意@choroba的觀點，即XML解析器是正確的工具。 但是，如果沒有可用的，則可以嘗試以下awk腳本：

awk '/Query/{print RS" "$0}' RS='<AUDIT_RECORD' file

Answer 3

輸入的內容可能是XML。 使用適當的解析器來處理它，尤其是當記錄跨越多行時。 例如， xsh ：

open file.xml ;
remove //AUDIT_RECORD[not(@NAME="Query")] ;
save :b ;

Answer 4

我建議的sed解決方案：

sed 's/<[^>]*\"Quit\"[^>]*>//' file.txt

對於跨越多行的記錄，請嘗試：

sed '{:q;N;s/\n/ /g;t q}' file.txt | sed 's/<[^>]*\"Quit\"[^>]*>//'

添加換行符RS：

... | sed 's|/>|/>\n|g'

提取包含帶有sed的特定字符串的XML元素

問題描述

4 個解決方案

解決方案1
4 2013-08-15 15:41:58

解決方案2
3 已采納 2013-08-15 13:46:27

解決方案3
2 2013-08-15 13:42:16

解決方案4
2 2013-08-15 13:55:40

提取包含帶有sed的特定字符串的XML元素

問題描述

4 個解決方案

解決方案1 4 2013-08-15 15:41:58

解決方案2 3 已采納 2013-08-15 13:46:27

解決方案3 2 2013-08-15 13:42:16

解決方案4 2 2013-08-15 13:55:40

解決方案1
4 2013-08-15 15:41:58

解決方案2
3 已采納 2013-08-15 13:46:27

解決方案3
2 2013-08-15 13:42:16

解決方案4
2 2013-08-15 13:55:40