[英]Linux Bash Regex on a HTML table get one row
result=$(
wget -qO- 'http://www.kuchenpeter.at/mittagsmenue.html' |
sed -n '/<p>/,/<\/p>/p'
)
echo $result
我嘗試從此頁面獲取菜單。
所以我需要表中的 5 個字符串,請參見此處
這個頁面上的壞事是當你查看下面的 html 代碼時,他們真的把標簽弄亂了。
<tr>
<td style="text-align: left; border-right: 1px solid #888;" valign="top">
<p>
<strong>
<span style="font-size: 12px;">
Puszta-Kotelett mit Pommes-frites
</span>
</strong>
</p>
<p>
<span style="font-size: 12px;">
</span>
</p>
</td>
###########################################
<td style="text-align: left; border-right: 1px solid #888;" valign="top">
<p>
<span style="font-size: 12px;">
<strong>
Hühnergeschnetzeltes "Asia" mit Reis
</strong>
</span>
</p>
<p>
</p>
</td>
###########################################
<td style="text-align: left; border-right: 1px solid #888;" valign="top">
<p>
<span style="font-size: 12px;">
<strong>
<span style="font-size: 12px;">
<strong>
Tafelspitz mit Apfelkren, Schnittlauchsauce und Röstinchen
</strong>
</span>
</strong>
</span>
</p>
<p>
</p>
</td>
<td style="text-align: left; border-right: 1px solid #888;" valign="top">
<p>
<span style="font-size: 12px;">
<strong>
Puten-Picatta "Milanese" mit Salat
</strong>
</span>
</p>
<p> </p>
</td>
<td style="text-align: left;" valign="top">
<p>
<span style="font-size: 12px;">
<strong>
Gebratener Dorsch mit Gemüse und Petersilkartoffeln
</strong>
</span>
</p>
<p>
<span style="font-size: 12px;">
</span>
</p>
</td>
我的Xidel可以通過模式匹配來實現,它幾乎看起來像一個正則表達式。
“Tagessuppe”之后的所有內容:
xidel http://www.kuchenpeter.at/mittagsmenue.html -e "<tr>Tagessuppe</tr><tr><strong>{.}</strong>+</tr>"
或者在第三行:
xidel http://www.kuchenpeter.at/mittagsmenue.html -e "<div class="block"><tr/>{2}<tr><strong>{.}</strong>+</tr></div>"
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.