在下面的代码中获取混合body元素内容的最佳方法是什么? 该元素可能包含XHTML或文本,但我只想要其字符串形式的内容。 XmlElement类型具有InnerXml属性,这正是我所追求的。

编写的代码几乎可以实现我想要的,但包含周围的<body> ... </body>元素,这是我不想要的。

XDocument doc = XDocument.Load(new StreamReader(s));
var templates = from t in doc.Descendants("template")
                where t.Attribute("name").Value == templateName
                select new
                {
                   Subject = t.Element("subject").Value,
                   Body = t.Element("body").ToString()
                };

===============>>#1 票数:203 已采纳

我想看看哪些建议的解决方案表现最好,所以我进行了一些比较测试。 出于兴趣,我还将LINQ方法与Greg建议的普通的System.Xml方法进行了比较。 变化很有趣,而不是我的预期,最慢的方法比最快的方法慢3倍

结果以最快到最慢排序:

  1. CreateReader - Instance Hunter(0.113秒)
  2. 普通的旧System.Xml - Greg Hurlman(0.134秒)
  3. 与字符串连接聚合 - Mike Powell(0.324秒)
  4. StringBuilder - Vin(0.333秒)
  5. String.Join阵列 - 特里(0.360秒)
  6. 数组上的String.Concat - Marcin Kosieradzki(0.364)

方法

我使用了一个包含20个相同节点的XML文档(称为“提示”):

<hint>
  <strong>Thinking of using a fake address?</strong>
  <br />
  Please don't. If we can't verify your address we might just
  have to reject your application.
</hint>

以秒为单位显示的数字是提取20个节点的“内部XML”,连续1000次,并取5次运行的平均值(平均值)的结果。 我没有包括将XML加载和解析为XmlDocument (对于System.Xml方法)或XDocument (对于所有其他方法)所花费的时间。

我使用的LINQ算法是: (C# - 全部采用XElement “parent”并返回内部XML字符串)

CreateReader:

var reader = parent.CreateReader();
reader.MoveToContent();

return reader.ReadInnerXml();

使用字符串连接进行聚合:

return parent.Nodes().Aggregate("", (b, node) => b += node.ToString());

StringBuilder的:

StringBuilder sb = new StringBuilder();

foreach(var node in parent.Nodes()) {
    sb.Append(node.ToString());
}

return sb.ToString();

String.Join数组:

return String.Join("", parent.Nodes().Select(x => x.ToString()).ToArray());

数组上的String.Concat:

return String.Concat(parent.Nodes().Select(x => x.ToString()).ToArray());

我没有在这里显示“Plain old System.Xml”算法,因为它只是在节点上调用.InnerXml。


结论

如果性能很重要(例如大量的XML,经常解析),我每次都会使用Daniel的CreateReader方法 如果你只是做了一些查询,你可能想要使用Mike更简洁的Aggregate方法。

如果您在具有大量节点(可能是100个)的大型元素上使用XML,您可能会开始看到使用StringBuilder优于Aggregate方法的好处,但不会超过CreateReader 我不认为JoinConcat方法在这些条件下会更有效率,因为将大型列表转换为大型数组会受到惩罚(这里使用较小的列表也很明显)。

===============>>#2 票数:69

我认为这是一个更好的方法(在VB中,不应该难以翻译):

给定XElement x:

Dim xReader = x.CreateReader
xReader.MoveToContent
xReader.ReadInnerXml

===============>>#3 票数:18

如何在XElement上使用这个“扩展”方法? 为我工作!

public static string InnerXml(this XElement element)
{
    StringBuilder innerXml = new StringBuilder();

    foreach (XNode node in element.Nodes())
    {
        // append node's xml string to innerXml
        innerXml.Append(node.ToString());
    }

    return innerXml.ToString();
}

或者使用一点Linq

public static string InnerXml(this XElement element)
{
    StringBuilder innerXml = new StringBuilder();
    doc.Nodes().ToList().ForEach( node => innerXml.Append(node.ToString()));

    return innerXml.ToString();
}

注意 :上面的代码必须使用element.Nodes()而不是element.Elements() 记住两者之间的区别非常重要。 element.Nodes()为您提供XTextXAttribute等所有内容,但XElement只提供了一个Element。

===============>>#4 票数:14

对于那些发现并证明是最佳方法的人(谢谢!),我们完全归功于它,这里包含了一个扩展方法:

public static string InnerXml(this XNode node) {
    using (var reader = node.CreateReader()) {
        reader.MoveToContent();
        return reader.ReadInnerXml();
    }
}

===============>>#5 票数:10

保持简单高效:

String.Concat(node.Nodes().Select(x => x.ToString()).ToArray())
  • 在连接字符串时,聚合是内存和性能低效的
  • 使用Join(“”,sth)使用比Concat大两倍的字符串数组......在代码中看起来很奇怪。
  • 使用+ =看起来非常奇怪,但显然不比使用'+'差 - 可能会针对相同的代码进行优化,因为分配结果未使用,可能会被编译器安全删除。
  • StringBuilder是如此迫切 - 每个人都知道不必要的“状态”很糟糕。

===============>>#6 票数:7

我最终使用了这个:

Body = t.Element("body").Nodes().Aggregate("", (b, node) => b += node.ToString());

===============>>#7 票数:3

就个人而言,我最终使用Aggregate方法编写了一个InnerXml扩展方法:

public static string InnerXml(this XElement thiz)
{
   return thiz.Nodes().Aggregate( string.Empty, ( element, node ) => element += node.ToString() );
}

我的客户端代码就像使用旧的System.Xml命名空间一样简洁:

var innerXml = myXElement.InnerXml();

===============>>#8 票数:2

@Greg:看来你编辑的答案是一个完全不同的答案。 我的答案是肯定的,我可以使用System.Xml来做到这一点,但希望能够使用LINQ to XML。

我将在下面留下我的原始回复以防其他人想知道为什么我不能只使用XElement的.Value属性来获得我需要的东西:

@Greg:Value属性连接任何子节点的所有文本内容。 因此,如果body元素只包含它可以工作的文本,但是如果它包含XHTML,我会将所有文本连接在一起但没有标记。

===============>>#9 票数:1

//使用Regex可能更快简单地修剪开始和结束元素标记

var content = element.ToString();
var matchBegin = Regex.Match(content, @"<.+?>");
content = content.Substring(matchBegin.Index + matchBegin.Length);          
var matchEnd = Regex.Match(content, @"</.+?>", RegexOptions.RightToLeft);
content = content.Substring(0, matchEnd.Index);

===============>>#10 票数:1

doc.ToString()或doc.ToString(SaveOptions)可以正常工作。 请参阅http://msdn.microsoft.com/en-us/library/system.xml.linq.xelement.tostring(v=vs.110).aspx

===============>>#11 票数:0

你懂? 最好的办法是回到CDATA :(我在这里看解决方案,但我认为CDATA是迄今为止最简单,最便宜,而不是最方便的开发

===============>>#12 票数:0

是否可以使用System.Xml命名空间对象来完成此处的工作而不是使用LINQ? 正如您已经提到的,XmlNode.InnerXml正是您所需要的。

===============>>#13 票数:0

var innerXmlAsText= XElement.Parse(xmlContent)
                    .Descendants()
                    .Where(n => n.Name.LocalName == "template")
                    .Elements()
                    .Single()
                    .ToString();

会为你做这份工作

===============>>#14 票数:0

想知道是否(注意我摆脱了b + =并且只是有b +)

t.Element( "body" ).Nodes()
 .Aggregate( "", ( b, node ) => b + node.ToString() );

效率可能略低于

string.Join( "", t.Element.Nodes()
                  .Select( n => n.ToString() ).ToArray() );

不是100%肯定......但是在Reflector中看了一下Aggregate()和string.Join()......我我把它读作Aggregate只是追加一个返回值,所以基本上你得到:

string = string + string

与string.Join,它有一些提到FastStringAllocation或其他东西,这使我的事情微软的人可能会在那里增加一些额外的性能。 当然我的.ToArray()称我的否定,但我只是想提出另一个建议。

===============>>#15 票数:-2

public static string InnerXml(this XElement xElement)
{
    //remove start tag
    string innerXml = xElement.ToString().Trim().Replace(string.Format("<{0}>", xElement.Name), "");
    ////remove end tag
    innerXml = innerXml.Trim().Replace(string.Format("</{0}>", xElement.Name), "");
    return innerXml.Trim();
}

  ask by Mike Powell translate from so

未解决问题?本站智能推荐: