[英]How can I extract meta tags from HTML in a bash/awk script?
我有一個有效的 Bash 腳本來提取標題標簽。 我需要 AWK 字段分隔符的幫助,用於從 HTML 中提取元標記,如下所示:
<meta name="keywords" content="key1, key2, key3">
我的腳本可以提取標題,但meta name
不起作用。
#!/bin/bash
for LINE in `cat htmls.txt`
do
echo $LINE
awk 'BEGIN{IGNORECASE=1;FS="<title>|</title>";RS=EOF} {print $2}' $LINE |
awk '{ if (NF > 0) printf("%s\n", $0); }'
done
我想我需要一個正則表達式解決方案。 有任何想法嗎?
首先安裝xml2例如
sudo apt-get install xml2
wget -q -O - http://www.latin.fm | xml2 | grep meta | awk -F/ '{print $NF}'
Output
@property=og:title
@content=Latin FM
...
只需這樣做:
$ awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }' file
keywords
要從網站獲取,請使用wget
wget -O- -q $url | awk '/meta name/{ gsub(/.*meta name=\042|\042.*/,"");print }'
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.