簡體   English   中英

如何使用RegEx Asp.net C#抓取BODY html標簽內的所有內容(來自字符串)

[英]How do i grab everything inside the BODY html tag (From a string) using RegEx Asp.net C#

{是的,上面或多或少解釋了它} :)

Regex oRegex = new Regex("<body.*?>(.*?)</body>", RegexOptions.Multiline);

如果身體中有任何屬性,上面似乎不起作用。

使用HTML Agility Pack (假設它是html,而不是xhtml):

HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
string body = doc.DocumentNode.SelectSingleNode("/html/body").InnerHtml;

不要使用正則表達式。 使用旨在解析XML / HTML的東西:

XmlDocument.SelectSingleNode("//body").InnerXml;

將字符串加載到XmlDocument中 ,使用SelectSingleNode函數(將XPath表達式作為參數),然后從生成的XmlNode中提取所需內容。

我最終通過使用RegexOptions.Singleline而不是使用RegexOptions.Multiline解決了它

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM