正則表達式用C＃解析CDATA的HTML

Question

我想解析包含在CDATA中的任何HTML數據。

例如<![CDATA[<table><tr><td>Approved</td></tr></table>]]>

謝謝！

Answer 1

處理你的例子的表達式將是

\<\!\[CDATA\[(?<text>[^\]]*)\]\]\>

組“文本”將包含您的HTML。

您需要的C＃代碼是：

using System.Text.RegularExpressions;
RegexOptions   options = RegexOptions.None;
Regex          regex = new Regex(@"\<\!\[CDATA\[(?<text>[^\]]*)\]\]\>", options);
string         input = @"<![CDATA[<table><tr><td>Approved</td></tr></table>]]>";

// Check for match
bool   isMatch = regex.IsMatch(input);
if( isMatch )
  Match   match = regex.Match(input);
  string   HTMLtext = match.Groups["text"].Value;
end if

“輸入”變量就在那里，只是為了使用您提供的示例輸入

Answer 2

我知道這看起來非常簡單，但是你嘗試過string.Replace（）嗎？

string x = "<![CDATA[<table><tr><td>Approved</td></tr></table>]]>";
string y = x.Replace("<![CDATA[", string.Empty).Replace("]]>", string.Empty);

可能有更有效的方法來處理這個問題，但可能你想要的東西很容易......

Answer 3

沒有太多細節，但如果沒有你沒有描述的復雜性，一個非常簡單的正則表達式應該匹配它：

/<!\[CDATA\[(.*?)\]\]>/

Answer 4

找到CDATA部分的正則表達式將是：

(?:<!\[CDATA\[)(.*?)(?:\]\]>)

Answer 5

為什么要將Regex用於這么簡單的任務？ 試試這個：

str = str.Trim().Substring(9);
str = str.Substring(0, str.Length-3);

Answer 6

Regex r = new Regex("(?<=<!\[CDATA\[).*?(?=\]\])");

正則表達式用C＃解析CDATA的HTML

問題描述

6 個解決方案

解決方案1
8 已采納 2009-05-01 17:24:38

解決方案2
4 2009-05-01 17:21:03

解決方案3
2 2009-05-01 17:22:12

解決方案4
1 2009-05-01 17:23:28

解決方案5
0 2011-09-09 15:47:47

解決方案6
0 2009-05-01 17:25:05

正則表達式用C＃解析CDATA的HTML

問題描述

6 個解決方案

解決方案1 8 已采納 2009-05-01 17:24:38

解決方案2 4 2009-05-01 17:21:03

解決方案3 2 2009-05-01 17:22:12

解決方案4 1 2009-05-01 17:23:28

解決方案5 0 2011-09-09 15:47:47

解決方案6 0 2009-05-01 17:25:05

解決方案1
8 已采納 2009-05-01 17:24:38

解決方案2
4 2009-05-01 17:21:03

解決方案3
2 2009-05-01 17:22:12

解決方案4
1 2009-05-01 17:23:28

解決方案5
0 2011-09-09 15:47:47

解決方案6
0 2009-05-01 17:25:05