繁体   English   中英

如何使用RegEx Asp.net C#抓取BODY html标签内的所有内容(来自字符串)

[英]How do i grab everything inside the BODY html tag (From a string) using RegEx Asp.net C#

{是的,上面或多或少解释了它} :)

Regex oRegex = new Regex("<body.*?>(.*?)</body>", RegexOptions.Multiline);

如果身体中有任何属性,上面似乎不起作用。

使用HTML Agility Pack (假设它是html,而不是xhtml):

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
string body = doc.DocumentNode.SelectSingleNode("/html/body").InnerHtml;

不要使用正则表达式。 使用旨在解析XML / HTML的东西:

XmlDocument.SelectSingleNode("//body").InnerXml;

将字符串加载到XmlDocument中 ,使用SelectSingleNode函数(将XPath表达式作为参数),然后从生成的XmlNode中提取所需内容。

我最终通过使用RegexOptions.Singleline而不是使用RegexOptions.Multiline解决了它

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM