我的正則表達式出了什么問題

Question

是的我知道使用RegEx解析HTML通常是一個壞主意，但除此之外，有人可以解釋這里的錯誤：

 string outputString = Regex.Replace(inputString, @"<?(?i:script|embed|object|frameset|frame|iframe|metalink|style|html|img|layer|ilayer|meta|applet)(.|\n)*?>", "");
if (outputString != inputString)
{
   Console.WriteLine("unwanted tags detected");
}

它當然會檢測到預期的標簽，如： <script>和<html> ，但它也拒絕我想要允許的字符串，例如<B>Description</B>和<A href="http://www.mylink.com/index.html">A Link containing 'HTML'</A>

Answer 1

我認為問題是第一個問號

<?(?i:script

您可能希望匹配結束html標記中的前導“/”字符，對吧？ 我認為問號使“<”可選（零或一個匹配）。

我建議使用

<(/)?(?i:script

但我不是RegEx專家......

Answer 2

我不確定你是如何用C＃做的，但似乎你忘了讓你的正則表達式不敏感。

Answer 3

從我看來它只需要一點點推動：

改變

"<?(?i:script|...|applet)(.|\n)*?>"

至

"\<(?i:script|...|applet)(.|\n)*?\>"

因為字符<和>是特殊的

Answer 4

我會改變

"<?(?i:script|...|meta|applet)(.|\n)*?>"

至

"</?(?:script|...|meta|applet)[^>]*>"

我並不完全熟悉Javascript Regex字符串，但我確實有一個參考資料，我熟悉正則表達式的基礎知識（偶爾我需要復習）。

\\ s完全是可選的 - 不需要它。 如果你願意，你可以保留它。 請注意，這不處理大寫標記。 你將需要處理這些作為額外的情況。

你可能不得不逃避字符串中的/。 你不需要嗎？ 之后*因為*表示0到多，所以涵蓋可選。

我不確定，但我認為貪婪的*不會超過（？:)。

http://www.regular-expressions.info/quickstart.html

我的正則表達式出了什么問題

問題描述

4 個解決方案

解決方案1
2 已采納 2010-03-17 10:17:59

解決方案2
1 2010-03-17 09:51:32

解決方案3
1 2010-03-17 09:53:11

解決方案4
0 2010-03-17 11:31:36

我的正則表達式出了什么問題

問題描述

4 個解決方案

解決方案1 2 已采納 2010-03-17 10:17:59

解決方案2 1 2010-03-17 09:51:32

解決方案3 1 2010-03-17 09:53:11

解決方案4 0 2010-03-17 11:31:36

解決方案1
2 已采納 2010-03-17 10:17:59

解決方案2
1 2010-03-17 09:51:32

解決方案3
1 2010-03-17 09:53:11

解決方案4
0 2010-03-17 11:31:36