.NET 從 HTML 頁面中刪除/剝離 JavaScript 和 CSS 代碼塊

Question

我有帶有 JavaScript 和 CSS 代碼塊的 HTML 字符串：

<script type="text/javascript">

  alert('hello world');

</script>

<style type="text/css">
  A:link {text-decoration: none}
  A:visited {text-decoration: none}
  A:active {text-decoration: none}
  A:hover {text-decoration: underline; color: red;}
</style>

如何剝離這些塊？ 關於可用於刪除這些正則表達式的任何建議？

Answer 1

快速的“n”臟方法將是這樣的正則表達式：

var regex = new Regex(
   "(\\<script(.+?)\\</script\\>)|(\\<style(.+?)\\</style\\>)", 
   RegexOptions.Singleline | RegexOptions.IgnoreCase
);

string ouput = regex.Replace(input, "");

更好*（但可能更慢）的選項是使用HtmlAgilityPack ：

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(htmlInput);

var nodes = doc.DocumentNode.SelectNodes("//script|//style");

foreach (var node in nodes)
    node.ParentNode.RemoveChild(node);

string htmlOutput = doc.DocumentNode.OuterHtml;

*) 有關為什么更好的討論，請參閱此線程。

Answer 2

使用 HTMLAgilityPack 獲得更好的結果

或者試試這個功能

public string RemoveScriptAndStyle(string HTML)
{
    string Pat = "<(script|style)\\b[^>]*?>.*?</\\1>";
    return Regex.Replace(HTML, Pat, "", RegexOptions.IgnoreCase | RegexOptions.Singleline);
}

Answer 3

我做了我的自行車）他可能不如 HtmlAgilityPack 正確，但它在 400 kb 的頁面上快了大約 5-6 倍。 也使符號小寫並刪除數字（為標記器制作）

 private static readonly List<byte[]> SPECIAL_TAGS = new List<byte[]>
                                                            {
                                                                Encoding.ASCII.GetBytes("script"),
                                                                Encoding.ASCII.GetBytes("style"),
                                                                Encoding.ASCII.GetBytes("noscript")
                                                            };

    private static readonly List<byte[]> SPECIAL_TAGS_CLOSE = new List<byte[]>
                                                                  {
                                                                      Encoding.ASCII.GetBytes("/script"),
                                                                      Encoding.ASCII.GetBytes("/style"),
                                                                      Encoding.ASCII.GetBytes("/noscript")};

public static string StripTagsCharArray(string source, bool toLowerCase)
    {
        var array = new char[source.Length];
        var arrayIndex = 0;
        var inside = false;
        var haveSpecialTags = false;
        var compareIndex = -1;
        var singleQouteMode = false;
        var doubleQouteMode = false;
        var matchMemory = SetDefaultMemory(SPECIAL_TAGS);
        for (int i = 0; i < source.Length; i++)
        {
            var let = source[i];
            if (inside && !singleQouteMode && !doubleQouteMode)
            {
                compareIndex++;
                if (haveSpecialTags)
                {
                    var endTag = CheckSpecialTags(let, compareIndex, SPECIAL_TAGS_CLOSE, ref matchMemory);
                    if (endTag) haveSpecialTags = false;
                }
                if (!haveSpecialTags)
                {
                    haveSpecialTags = CheckSpecialTags(let, compareIndex, SPECIAL_TAGS, ref matchMemory);
                }
            }
            if (haveSpecialTags && let == '"')
            {
                doubleQouteMode = !doubleQouteMode;
            }
            if (haveSpecialTags && let == '\'')
            {
                singleQouteMode = !singleQouteMode;
            }
            if (let == '<')
            {
                matchMemory = SetDefaultMemory(SPECIAL_TAGS);
                compareIndex = -1;
                inside = true;
                continue;
            }
            if (let == '>')
            {
                inside = false;
                continue;
            }
            if (inside) continue;
            if (char.IsDigit(let)) continue; 
            if (haveSpecialTags) continue;
            array[arrayIndex] = toLowerCase ? Char.ToLowerInvariant(let) : let;
            arrayIndex++;
        }
        return new string(array, 0, arrayIndex);
    }

    private static bool[] SetDefaultMemory(List<byte[]> specialTags)
    {
        var memory = new bool[specialTags.Count];
        for (int i = 0; i < memory.Length; i++)
        {
            memory[i] = true;
        }
        return memory;
    }

Answer 4

與 Elian Ebbing 的回答和 Rajeev 的回答類似，我選擇了使用 HTML 庫的更穩定的解決方案，而不是正則表達式。 但是我沒有使用 HtmlAgilityPack，而是使用了AngleSharp ，它在 .NET Core 3 中為我提供了類似 jquery 的選擇器：

//using AngleSharp;
var context = BrowsingContext.New(Configuration.Default);
var document = await context.OpenAsync(req => req.Content(sourceHtml)); // generate HTML DOM from source html string
var elems = document.QuerySelectorAll("script, style"); // get script and style elements
foreach(var elem in elems)
{
    var parent = elem.Parent;
    parent.RemoveChild(elem); // remove element from DOM
}
var resultHtml = document.DocumentElement.OuterHtml; // HTML result as a string

Answer 5

只需尋找一個開始的<script標簽，然后刪除它和結束的/script>標簽之間的所有內容。

風格也是一樣。 有關字符串操作提示，請參閱 Google 。

.NET 從 HTML 頁面中刪除/剝離 JavaScript 和 CSS 代碼塊

問題描述

5 個解決方案

解決方案1
20 已采納 2011-06-17 09:20:46

解決方案2
2 2011-06-17 10:47:22

解決方案3
1 2013-07-03 09:05:06

解決方案4
1 2020-07-20 17:54:57

解決方案5
1 2011-06-17 08:38:06

.NET 從 HTML 頁面中刪除/剝離 JavaScript 和 CSS 代碼塊

問題描述

5 個解決方案

解決方案1 20 已采納 2011-06-17 09:20:46

解決方案2 2 2011-06-17 10:47:22

解決方案3 1 2013-07-03 09:05:06

解決方案4 1 2020-07-20 17:54:57

解決方案5 1 2011-06-17 08:38:06

解決方案1
20 已采納 2011-06-17 09:20:46

解決方案2
2 2011-06-17 10:47:22

解決方案3
1 2013-07-03 09:05:06

解決方案4
1 2020-07-20 17:54:57

解決方案5
1 2011-06-17 08:38:06