識別模式以從C＃HTML編碼字符串中提取單詞

Question

我正在尋找一些幫助識別來自HTML編碼的字符串的模式。

如果我有一個HTML編碼字符串，如：

string strHTMLText=@"&lt;p&gt;Pellentesque habitant [[@Code1]] morbi tristique senectus [[@Code2]] et netus et malesuada fames ac [[@Code3]] turpis egestas.&lt;/p&gt;"

我需要提取單詞[[@ Code1]]，[@ Code2]，[[@ Code3]] ，這是動態的並且它們的計數是未知的。 這些單詞已用於替換提供的HTML文本中的其他值。

我想識別模式[[@ something ]]並填充數組等中的所有匹配項，以便我可以處理這些值以便稍后從數據庫中獲取相關值。

Answer 1

string strHTMLText=@"&lt;p&gt;Pellentesque habitant [[@Code1]] morbi tristique senectus [[@Code2]] et netus et malesuada fames ac [[@Code3]] turpis egestas.&lt;/p&gt;";
var input = HttpUtility.HtmlDecode(strHTMLText);
var list = Regex.Matches(input, @"\[\[@(.+?)\]\]")
    .Cast<Match>()
    .Select(m => m.Groups[1].Value)
    .ToList();

Answer 2

直到有人帶來正則表達式解決方案，為了好玩，我為你做了這個：

string strHTMLText=@"&lt;p&gt;Pellentesque habitant [[@Code1]] morbi tristique senectus [[@Code2]] et netus et malesuada fames ac [[@Code3]] turpis egestas.&lt;/p&gt;";

IEnumerable<string> arr = strHTMLText.Split(new char[] {'['};
List<string> output = new List<string>();
foreach(var item in arr)
{
string placeHolder = item.Substring(0,item.IndexOf("]");
output.Add(placeHolder);
}

要將輸出轉換為數組：

output.ToArray();

Answer 3

您可以使用正則表達式。

嘗試使用此表達式

Regex exp = new Regex("\[.+?\]")
MatchCollection mc = exp.matches(<Your string here>);
foreach(Match m in mc)
{
   String code = m.value;
}

我沒有測試過這段代碼，它是一個快速而又臟的偽代碼，所以請耐心等待。

識別模式以從C＃HTML編碼字符串中提取單詞

問題描述

3 個解決方案

解決方案1
4 已采納 2012-09-12 06:29:58

解決方案2
0 2012-09-12 06:19:01

解決方案3
0 2012-09-12 06:32:26

識別模式以從C＃HTML編碼字符串中提取單詞

問題描述

3 個解決方案

解決方案1 4 已采納 2012-09-12 06:29:58

解決方案2 0 2012-09-12 06:19:01

解決方案3 0 2012-09-12 06:32:26

解決方案1
4 已采納 2012-09-12 06:29:58

解決方案2
0 2012-09-12 06:19:01

解決方案3
0 2012-09-12 06:32:26