如何僅使用 grep 提取 bash 中的 html 標簽

Question

所以我有這個代碼

<span class="cur_wind">Sunrise <b>7:33 am</b> <br />

我想用grep來提取日出時間和日落時間。 我該怎么做？ 我只想使用 grep，因為我不熟悉 awk 和 sed 以及其他。 干杯!

Answer 1

grep真的不是去這里的方法，但如果你沒有任何額外的時間操作符，像下面這樣的原始東西可能會起作用。

grep -oP "(Sunrise|Sunset|\d+:\d+ (a.m|p.m))"

樣本輸出

> cat file
<td valign="top"><span class="cur_wind">Sunrise <b>7:33 a.m.</b> <br />
            Sunset&nbsp; <b>7:17 p.m.</b></span></td>
> grep -oP "(Sunrise|Sunset|\d+:\d+ (a.m|p.m))" file 
Sunrise
7:33 a.m
Sunset
7:17 p.m

或者，這樣的事情可能會擺脫更多的錯誤情況

grep -oP "(Sunrise(.*)\d+:\d+ (a.m|p.m))|(Sunset(.*)\d+:\d+ (a.m|p.m))" file 
Sunrise <b>7:33 a.m
Sunset&nbsp; <b>7:17 p.m

您可以再次通過管道傳遞給grep以刪除標記字符。

Answer 2

你可以使用awk來做到這一點：

awk '{gsub(/<[^>]*>/, " ");$1=$1}1' file
Sunrise 7:33 a.m.
Sunset&nbsp; 7:17 p.m.

如何僅使用 grep 提取 bash 中的 html 標簽

問題描述

2 個解決方案

解決方案1
0 2014-03-30 07:38:30

解決方案2
-1 2014-03-30 07:34:08

如何僅使用 grep 提取 bash 中的 html 標簽

問題描述

2 個解決方案

解決方案1 0 2014-03-30 07:38:30

解決方案2 -1 2014-03-30 07:34:08

解決方案1
0 2014-03-30 07:38:30

解決方案2
-1 2014-03-30 07:34:08