簡體   English   中英

替換HTML文檔中與正則表達式匹配的字符,但標記內的字符除外

[英]Replace characters in an HTML document that match a regex, except those inside tags

我想替換HTML文檔中除模式之外的所有匹配模式的字符。 如何使用Perl或sed使用正則表達式?

示例:將所有“a”替換為“b”,但如果“a”替換為<a href="aaa">類的HTML標記,則<a href="aaa">

正如評論中指出的那樣,HTML解析器是您解決問題的理想解決方案,但是如果您出於任何原因想要使用正則表達式,則以下方法將起作用:

a(?![^<]*>)

RegExr上的工作示例輸入相同。

在Perl中

$var = "salut <a href='a.html'></a> ah ha <a href='about.asp' /> animal";
#        ^     ^       ^         ^  ^   ^  ^       ^     ^       ^   ^
$var =~ s/a(?![^<]*>)/b/g;
print $var;

輸出:

sblut <a href='a.html'></a> bh hb <a href='about.asp' /> bnimbl
 ^                          ^   ^                        ^   ^

恢復這個古老的問題,因為它有一個沒有提到的簡單解決方案。

有了所有關於使用正則表達式解析html的免責聲明,這是一個簡單的方法。

#!/usr/bin/perl
$regex = '<[^>]*|(a)';
$subject = 'aig arother <a href="aaa">';
($replaced = $subject) =~ s/$regex/
if (defined $1)  {"b";} else {$&;} /eg;
print $replaced . "\n";

看到這個現場演示

參考

如何匹配模式除了情況s1,s2,s3

除非......如何匹配模式

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM