論壇標簽。實現它們的最佳方法是什么？

Question

我正在建立一個論壇，我想使用論壇風格的標簽讓用戶以有限的方式格式化他們的帖子。 目前我正在使用正則表達式來做到這一點。 根據這個問題： How to use C# regular expressions to emulate forum tags

問題在於，正則表達式不區分嵌套標簽。 這是我如何實現此方法的示例：

    public static string MyExtensionMethod(this string text)
    {
         return TransformTags(text);
    }

    private static string TransformTags(string input)
    {
        string regex = @"\[([^=]+)[=\x22']*(\S*?)['\x22]*\](.+?)\[/(\1)\]";
        MatchCollection matches = new Regex(regex).Matches(input);
        for (int i = 0; i < matches.Count; i++)
        {
            var tag = matches[i].Groups[1].Value;
            var optionalValue = matches[i].Groups[2].Value;
            var content = matches[i].Groups[3].Value;

            if (Regex.IsMatch(content, regex))
            {
                content = TransformTags(content);
            }

            content = HandleTags(content, optionalValue, tag);

            input = input.Replace(matches[i].Groups[0].Value, content);
        }

        return input;
    }

    private static string HandleTags(string content, string optionalValue, string tag)
    {
        switch (tag.ToLower())
        {
            case "quote":
                return string.Format("<div class='quote'>{0}</div>", content);
            default:
                return string.Empty;
        }
    }

現在，如果我提交類似[quote] This user posted [quote] blah [/quote] [/quote]它不能正確檢測嵌套的引用。 相反，它采用第一個開始引號標記並將其與第一個結束引號標記放在一起。

有沒有推薦的解決方案？ 可以修改正則表達式以獲取嵌套標簽嗎？ 也許我不應該為此使用正則表達式？

Answer 1

雖然使用平衡組可能可以使用“僅”正則表達式，但它是非常沉重的伏都教，而且它本質上是“脆弱的”。 我建議使用正則表達式來查找打開/關閉標簽（不嘗試將關閉與打開相關聯），將它們標記並收集在一個集合中（可能是一個堆棧），然后“手動”解析它們（使用 foreach）。 通過這種方式，您可以兩全其美：通過正則表達式搜索標簽並手動處理它們（以及錯誤編寫的標簽）。

class TagMatch
{
    public string Tag { get; set; }
    public Capture Capture { get; set; }
    public readonly List<string> Substrings = new List<string>();
}

static void Main(string[] args)
{
    var rx = new Regex(@"(?<OPEN>\[[A-Za-z]+?\])|(?<CLOSE>\[/[A-Za-z]+?\])|(?<TEXT>[^\[]+|\[)");
    var str = "Lorem [AA]ipsum [BB]dolor sit [/BB]amet, [ consectetur ][/AA]adipisici elit, sed eiusmod tempor incidunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquid ex ea commodi consequat. Quis aute iure reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint obcaecat cupiditat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.";
    var matches = rx.Matches(str);

    var recurse = new Stack<TagMatch>();
    recurse.Push(new TagMatch { Tag = String.Empty });

    foreach (Match match in matches)
    {
        var text = match.Groups["TEXT"];

        TagMatch last;

        if (text.Success)
        {
            last = recurse.Peek();
            last.Substrings.Add(text.Value);
            continue;
        }

        var open = match.Groups["OPEN"];

        string tag;

        if (open.Success)
        {
            tag = open.Value.Substring(1, open.Value.Length - 2);
            recurse.Push(new TagMatch { Tag = tag, Capture = open.Captures[0] });
            continue;
        }

        var close = match.Groups["CLOSE"];

        tag = close.Value.Substring(2, close.Value.Length - 3);

        last = recurse.Peek();

        if (last.Tag == tag)
        {
            recurse.Pop();

            var lastLast = recurse.Peek();
            lastLast.Substrings.Add("**" + last.Tag + "**");
            lastLast.Substrings.AddRange(last.Substrings);
            lastLast.Substrings.Add("**/" + last.Tag + "**");
        }
        else
        {
            throw new Exception();
        }
    }

    if (recurse.Count != 1)
    {
        throw new Exception();
    }

    var sb = new StringBuilder();
    foreach (var str2 in recurse.Pop().Substrings)
    {
        sb.Append(str2);
    }

    var str3 = sb.ToString();
}

這是一個例子。 它區分大小寫（但很容易解決這個問題）。 它不處理“未配對”標簽，因為有多種方法可以處理它們。 在您發現“拋出新異常”的地方，您必須添加處理。 顯然，這不是“插入”解決方案。 這只是一個例子。 按照這種邏輯，我不會回答諸如“編譯器告訴我我需要一個命名空間”或“編譯器找不到正則表達式”之類的問題。 但是我非常樂意回答“高級”問題，例如如何匹配未配對的標簽，或者如何添加對[AAA=bbb]標簽的支持

（第二次大編輯）

哇哈哈！ 我確實知道分組是這樣做的方法！

// Some classes

class BaseTagMatch {
    public Capture Capture;

    public override string ToString()
    {
        return String.Format("{1}: {2} [{0}]", GetType(), Capture.Index, Capture.Value.ToString());
    }
}

class BeginTag : BaseTagMatch
{
    public int Index;
    public Capture Options;
    public EndTag EndTag;
}

class EndTag : BaseTagMatch {
    public int Index;
    public BeginTag BeginTag;
}

class Text : BaseTagMatch
{
}

class UnmatchedTag : BaseTagMatch
{
}

// The code

var pattern =
    @"(?# line 01) ^" +
    @"(?# line 02) (" +
    // Non [ Text
    @"(?# line 03)   (?>(?<TEXT>[^\[]+))" +
    @"(?# line 04)   |" +
    // Immediately closed tag [a/]
    @"(?# line 05)   (?>\[  (?<TAG>  [A-Z]+  )  \x20*  =?  \x20*  (?<TAG_OPTION>(  (?<=  =  \x20*)  (  (?!  \x20*  /\])  [^\[\]\r\n]  )*  )?  )  (?<BEGIN_INNER_TEXT>)(?<END_INNER_TEXT>)  \x20*  /\]  )" +
    @"(?# line 06)   |" +
    // Matched open tag [a]
    @"(?# line 07)   \[  (?<TAG>  (?<OPEN>  [A-Z]+  )  )  \x20* =?  \x20* (?<TAG_OPTION>(  (?<=  =  \x20*)  (  (?!  \x20*  \])  [^\[\]\r\n]  )*  )?  )  \x20*  \]  (?<BEGIN_INNER_TEXT>)" +
    @"(?# line 08)   |" +
    // Matched close tag [/a]
    @"(?# line 09)   (?>(?<END_INNER_TEXT>)  \[/  \k<OPEN>  \x20*  \]  (?<-OPEN>))" +
    @"(?# line 10)   |" +
    // Unmatched open tag [a]
    @"(?# line 11)   (?>(?<UNMATCHED_TAG>  \[  [A-Z]+  \x20* =?  \x20* (  (?<=  =  \x20*)  (  (?!  \x20*  \])  [^\[\]\r\n]  )*  )?  \x20*  \]  )  )" +
    @"(?# line 12)   |" +
    // Unmatched close tag [/a]
    @"(?# line 13)   (?>(?<UNMATCHED_TAG>  \[/  [A-Z]+  \x20*  \]  )  )" +
    @"(?# line 14)   |" +
    // Single [ of Text (unmatched by other patterns)
    @"(?# line 15)   (?>(?<TEXT>\[))" +
    @"(?# line 16) )*" +
    @"(?# line 17) (?(OPEN)(?!))" +
    @"(?# line 18) $";

var rx = new Regex(pattern, RegexOptions.IgnorePatternWhitespace | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase);

var match = rx.Match("[div=c:max max]asdf[p = 1   ] a [p=2] [b  =  p/pp   /] [q/] \n[a]sd [/z]  [ [/p]f[/p]asdffds[/DIV] [p][/p]");

////var tags = match.Groups["TAG"].Captures.OfType<Capture>().ToArray();
////var tagoptions = match.Groups["TAG_OPTION"].Captures.OfType<Capture>().ToArray();
////var begininnertext = match.Groups["BEGIN_INNER_TEXT"].Captures.OfType<Capture>().ToArray();
////var endinnertext = match.Groups["END_INNER_TEXT"].Captures.OfType<Capture>().ToArray();
////var text = match.Groups["TEXT"].Captures.OfType<Capture>().ToArray();
////var unmatchedtag = match.Groups["UNMATCHED_TAG"].Captures.OfType<Capture>().ToArray();

var tags = match.Groups["TAG"].Captures.OfType<Capture>().Select((p, ix) => new BeginTag { Capture = p, Index = ix, Options = match.Groups["TAG_OPTION"].Captures[ix] }).ToList();

Func<Capture, int, EndTag> func = (p, ix) =>
{
    var temp = new EndTag { Capture = p, Index = ix, BeginTag = tags[ix] };
    tags[ix].EndTag = temp;
    return temp;
};

var endTags = match.Groups["END_INNER_TEXT"].Captures.OfType<Capture>().Select((p, ix) => func(p, ix));
var text = match.Groups["TEXT"].Captures.OfType<Capture>().Select((p, ix) => new Text { Capture = p });
var unmatchedTags = match.Groups["UNMATCHED_TAG"].Captures.OfType<Capture>().Select((p, ix) => new UnmatchedTag { Capture = p });

// Here you have all the tags and the inner text neatly ordered and ready to be recomposed in a StringBuilder.
var allTags = tags.Cast<BaseTagMatch>().Union(endTags).Union(text).Union(unmatchedTags).ToList();
allTags.Sort((p, q) => p.Capture.Index - q.Capture.Index);

foreach (var el in allTags)
{
    var type = el.GetType();

    if (type == typeof(BeginTag))
    {

    }
    else if (type == typeof(EndTag))
    {

    }
    else if (type == typeof(UnmatchedTag))
    {

    }
    else
    {
        // Text
    }
}

不區分大小寫的標簽匹配，忽略未正確關閉的標簽，支持立即關閉的標簽（ [BR/] ）。 有人告訴正則表達式不可能...... Bwahahahahah！

TAG 、 TAGOPTION 、 BEGIN_INNER_TEXT和END_INNER_TEXT匹配（它們總是具有相同數量的元素）。 TEXT和UNMATCHED_TAG不匹配！ TAG和TAG_OPTION是自動解釋的（都去掉了無用的空格）。 BEGIN_INNER_TEXT和END_INNER_TEXT捕獲始終為空，但您可以使用它們的Index屬性查看標簽的開始/結束位置。 UNMATCHED_TAG包含已打開但未關閉或已關閉但未反對的標簽。 它不包含格式錯誤的標簽（例如 [ 123 ]）。

最后，我使用TAG 、 END_INNER_TEXT （以查看標簽結束的位置）、 TEXT和UNMATCHED_TAG並按索引對它們進行排序。 然后，您可以使用allTags ，將其放入foreach並為每個元素測試其類型。 簡單的：-）：-）

作為一個小說明，正則表達式是RegexOptions.IgnorePatternWhitespace | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase RegexOptions.IgnorePatternWhitespace | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase RegexOptions.IgnorePatternWhitespace | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase 。 前兩個是為了更容易編寫和閱讀，第三個是語義上的。 它使[A]與[/a]匹配。

必要的閱讀：

http://www.codeproject.com/KB/recipes/Nested_RegEx_explained.aspx http://www.codeproject.com/KB/recipes/RegEx_Balanced_Grouping.aspx

Answer 2

我不確定正則表達式會在哪里使您受益。 這將是非常基本的，但您可以將 [quote] 替換為<div class="quote">並將 [/quote] 替換為</div> 。 對於您想要允許的所有其他 bbcode 樣式標簽，也可以這樣說。

換句話說，將它們逐字轉換為您希望它們表示的 html。

論壇標簽。實現它們的最佳方法是什么？

問題描述

2 個解決方案

解決方案1
2 已采納 2011-02-24 21:24:47

解決方案2
0 2011-02-24 19:00:04

論壇標簽。 實現它們的最佳方法是什么？

問題描述

2 個解決方案

解決方案1 2 已采納 2011-02-24 21:24:47

解決方案2 0 2011-02-24 19:00:04

論壇標簽。實現它們的最佳方法是什么？

解決方案1
2 已采納 2011-02-24 21:24:47

解決方案2
0 2011-02-24 19:00:04