将节点与HTML Agility Pack结合的最佳方法

Question

我已经将大型文档从Word转换为HTML。 已经很接近了，但是我有很多“代码”节点，我想将它们合并成一个“前置”节点。

这是输入：

<p>Here's a sample MVC Controller action:</p>
<code>        public ActionResult Index()</code>
<code>        {</code>
<code>            return View();</code>
<code>        }</code>
<p>We'll start by making the following changes...</p>

我想把它变成这个：

<p>Here's a sample MVC Controller action:</p>
<pre class="brush: csharp">        public ActionResult Index()
    {
        return View();
    }</pre>
<p>We'll start by making the following changes...</p>

我最终编写了一个蛮力循环，该循环遍历节点以寻找连续的节点，但这对我来说似乎很丑陋：

HtmlDocument doc = new HtmlDocument();
doc.Load(file);

var nodes = doc.DocumentNode.ChildNodes;
string contents = string.Empty;

foreach (HtmlNode node in nodes)
{

    if (node.Name == "code")
    {
        contents += node.InnerText + Environment.NewLine;
        if (node.NextSibling.Name != "code" && 
            !(node.NextSibling.Name == "#text" && node.NextSibling.NextSibling.Name == "code")
            )
        {
            node.Name = "pre";
            node.Attributes.RemoveAll();
            node.SetAttributeValue("class", "brush: csharp");
            node.InnerHtml = contents;
            contents = string.Empty;
        }
    }
}

nodes = doc.DocumentNode.SelectNodes(@"//code");
foreach (var node in nodes)
{
    node.Remove();
}

通常，我会在第一个循环中删除节点，但这在迭代期间不起作用，因为您无法在对其进行迭代时更改集合。

好主意？

Answer 1

第一种方法：选择所有<code>节点，将它们分组，然后为每个组创建一个<pre>节点：

var idx = 0;
var nodes = doc.DocumentNode
    .SelectNodes("//code")
    .GroupBy(n => new { 
        Parent = n.ParentNode, 
        Index = n.NextSiblingIsCode() ? idx : idx++ 
    });

foreach (var group in nodes)
{
    var pre = HtmlNode.CreateNode("<pre class='brush: csharp'></pre>");
    pre.AppendChild(doc.CreateTextNode(
        string.Join(Environment.NewLine, group.Select(g => g.InnerText))
    ));
    group.Key.Parent.InsertBefore(pre, group.First());

    foreach (var code in group)
        code.Remove();
}

此处的分组字段是父节点和组索引的组合字段，当找到新组时会增加。 我NextSiblingIsCode这里使用了NextSiblingIsCode扩展方法：

public static bool NextSiblingIsCode(this HtmlNode node)
{
    return (node.NextSibling != null && node.NextSibling.Name == "code") ||
        (node.NextSibling is HtmlTextNode && 
         node.NextSibling.NextSibling != null && 
         node.NextSibling.NextSibling.Name == "code");
}

它用于确定下一个同级节点是否是<code>节点。

第二种方法：仅选择每个组的顶部<code>节点，然后遍历这些节点中的每个节点以找到下一个<code>节点，直到第一个非<code>节点。 我在这里使用xpath ：

var nodes = doc.DocumentNode.SelectNodes(
    "//code[name(preceding-sibling::*[1])!='code']"
);
foreach (var node in nodes)
{
    var pre = HtmlNode.CreateNode("<pre class='brush: csharp'></pre>");
    node.ParentNode.InsertBefore(pre, node);
    var content = string.Empty;
    var next = node;
    do
    {
        content += next.InnerText + Environment.NewLine;
        var previous = next;
        next = next.SelectSingleNode("following-sibling::*[1][name()='code']");
        previous.Remove();
    } while (next != null);
    pre.AppendChild(doc.CreateTextNode(
        content.TrimEnd(Environment.NewLine.ToCharArray())
    ));
}

Answer 2

清理要解析的html。 HTML Agility Pack条标记不在白名单中

将节点与HTML Agility Pack结合的最佳方法

问题描述

2 个解决方案

解决方案1
2 2012-02-28 15:51:31

解决方案2
0 2010-08-29 20:56:44

将节点与HTML Agility Pack结合的最佳方法

问题描述

2 个解决方案

解决方案1 2 2012-02-28 15:51:31

解决方案2 0 2010-08-29 20:56:44

解决方案1
2 2012-02-28 15:51:31

解决方案2
0 2010-08-29 20:56:44