使用 sed - shell 腳本從 XML 標記中提取文本

Question

好吧，我已經編寫了基本上將 xml 文件作為輸入並提取特定 XML 標簽的文本的腳本，它正在工作。 但是獲取多行文本並允許特殊字符還不夠聰明。 文本格式應保持完整，因為它是在標簽下定義的，這一點非常重要。

下面是 XML 輸入：

<nick>Deminem</nick>
<company>XYZ Solutions</company>
<description>
  /**
   * 
   *  «Lorem» ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy
   *  tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. 
   *  At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd 
   *  no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit 
   *  consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore
   *  magna aliquyam erat, sed diam voluptua.
   *
   **/
</description>

上面的腳本提取每個特定標簽的文本並分配給新的 valueArray。 我對 sed 的命令是基本的，但總是願意 go 加倍努力。

tagsArray=( nick company description )
noOfElements=${#tagsArray[@]}

for (( i=0;i<$noOfElements;i++)); do

OUT=`grep ${tagsArray[${i}]} filename.xml | tr -d '\t' | sed -e 's/^<.*>\([^<].*\)<.*>$/\1/' `

valueArray[${i}]=${OUT}
done

Answer 1

正如您所經歷的那樣，使用正則表達式解析 XML 最終會導致麻煩。 花時間學習足夠的XSL （有很多教程）來正確轉換 XML，例如使用xsltproc 。

編輯：

在嘗試了幾個命令行 xml 實用程序之后，我認為xmlstarlet可能是適合您的工具。 以下內容未經測試，並假設filename.xml是正確的 xml 文件（即具有單個根元素）。

tagsArray=( nick company description )
noOfElements=${#tagsArray[@]}

for (( i=0;i<$noOfElements;i++)); do
    valueArray[${i}] = `xmlstarlet sel -t -v "/root/$tagsArray[i]" filename.xml`
done

Answer 2

#!/bin/sh
filePath=$1 #XML file path
tagName=$2  #Tag name to fetch values
awk '!/<.*>/' RS="<"$tagName">|</"$tagName">" $filePath

使用 sed - shell 腳本從 XML 標記中提取文本

問題描述

2 個解決方案

解決方案1
3 2011-04-27 19:11:33

解決方案2
0 2012-04-19 05:39:51

使用 sed - shell 腳本從 XML 標記中提取文本

問題描述

2 個解決方案

解決方案1 3 2011-04-27 19:11:33

解決方案2 0 2012-04-19 05:39:51

解決方案1
3 2011-04-27 19:11:33

解決方案2
0 2012-04-19 05:39:51