如何使用regex.split解析html並在c＃中返回值數組

Question

目前，我正在嘗試解析一些html並返回一個數組，其中包含每個元素中的值。

例如：

如果我將下面的標記傳遞給函數

var element = "td";
var html = "<tr><td>1</td><td>2</td></tr>";
return Regex.Split(html, string.Format("<{0}*.>(.*?)</{0}>", element));

我期望返回一個數組[] {1，2}

我的正則表達式需要什么樣？ 目前，我的數組返回了很多元素，而我的正則表達式技能卻不足

Answer 1

不要使用正則表達式解析HTML。

相反，您應該使用HTML Agility Pack 。

例如：

HtmlDocument doc = new HtmlDocument();
doc.Parse(str);

IEnumerable<string> cells = doc.DocumentNode.Descendants("td").Select(td => td.InnerText);

Answer 2

您確實不應該使用正則表達式來解析html。 html不是一種常規語言，因此regex無法正確解釋它。 您應該使用解析器。

C＃為此具有html 解析器。

Answer 3

自原始答案以來，加載html的方法已更改，現在是：

// From File
var doc = new HtmlDocument();
doc.Load(filePath);

// From String
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

但是，如果您按照上面提供的鏈接使用文檔，就可以了：)

如何使用regex.split解析html並在c＃中返回值數組

問題描述

3 個解決方案

解決方案1
6 已采納 2010-09-27 20:37:14

解決方案2
1 2010-09-27 20:38:14

解決方案3
0 2019-06-20 23:02:48

如何使用regex.split解析html並在c＃中返回值數組

問題描述

3 個解決方案

解決方案1 6 已采納 2010-09-27 20:37:14

解決方案2 1 2010-09-27 20:38:14

解決方案3 0 2019-06-20 23:02:48

解決方案1
6 已采納 2010-09-27 20:37:14

解決方案2
1 2010-09-27 20:38:14

解決方案3
0 2019-06-20 23:02:48