如何在 bash/awk 腳本中從 HTML 中提取元標記？

Question

我有一個有效的 Bash 腳本來提取標題標簽。 我需要 AWK 字段分隔符的幫助，用於從 HTML 中提取元標記，如下所示：

<meta name="keywords" content="key1, key2, key3">

我的腳本可以提取標題，但meta name不起作用。

#!/bin/bash
for LINE in `cat htmls.txt`

do
   echo $LINE
   awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' $LINE |
   awk '{ if (NF > 0) printf("%s\n", $0); }'
done

我想我需要一個正則表達式解決方案。 有任何想法嗎？

Answer 1

首先安裝xml2例如

sudo apt-get install xml2

wget -q -O - http://www.latin.fm | xml2 | grep meta | awk -F/ '{print $NF}'

Output

@property=og:title
@content=Latin FM
...

Answer 2

只需這樣做：

$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords

要從網站獲取，請使用wget

wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'

如何在 bash/awk 腳本中從 HTML 中提取元標記？

問題描述

2 個解決方案

解決方案1
3 2011-08-14 18:02:47

解決方案2
0 2011-08-29 00:02:43

如何在 bash/awk 腳本中從 HTML 中提取元標記？

問題描述

2 個解決方案

解決方案1 3 2011-08-14 18:02:47

解決方案2 0 2011-08-29 00:02:43

解決方案1
3 2011-08-14 18:02:47

解決方案2
0 2011-08-29 00:02:43