[英]Replace characters in an HTML document that match a regex, except those inside tags
我想替換HTML文檔中除模式之外的所有匹配模式的字符。 如何使用Perl或sed使用正則表達式?
示例:將所有“a”替換為“b”,但如果“a”替換為<a href="aaa">
類的HTML標記,則<a href="aaa">
。
正如評論中指出的那樣,HTML解析器是您解決問題的理想解決方案,但是如果您出於任何原因想要使用正則表達式,則以下方法將起作用:
a(?![^<]*>)
在Perl中 :
$var = "salut <a href='a.html'></a> ah ha <a href='about.asp' /> animal";
# ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^
$var =~ s/a(?![^<]*>)/b/g;
print $var;
輸出:
sblut <a href='a.html'></a> bh hb <a href='about.asp' /> bnimbl
^ ^ ^ ^ ^
恢復這個古老的問題,因為它有一個沒有提到的簡單解決方案。
有了所有關於使用正則表達式解析html的免責聲明,這是一個簡單的方法。
#!/usr/bin/perl
$regex = '<[^>]*|(a)';
$subject = 'aig arother <a href="aaa">';
($replaced = $subject) =~ s/$regex/
if (defined $1) {"b";} else {$&;} /eg;
print $replaced . "\n";
看到這個現場演示
參考
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.