繁体   English   中英

正则表达式可匹配所有内容,HTML标记除外

[英]Regular expression to match everything, except HTML tags

<tr><td>Di, 12.04.16</td><td>1</td><td>D</td><td>D</td><td>255</td><td>ABC</td><tr>

我只想匹配ABC或介于两者之间的任何其他内容

<td>
</td> (before and after ABC)

此模式对我不起作用:

((?!<tr><td>[D-M][i-r],[' ][0-3][0-9]\\.[0-1][0-9]\\.[0-9][0-9]</td><td>[1-9][0-2]?</td><td>[A-Z]?[A-Z]?[A-Z]?[A-Z]?[1-5]?</td><td>(---|[A-Z]?[A-Z]?[A-Z]?[A-Z]?[1-5]?)</td><td>).*(?!</td></tr>))

你有什么主意吗? 寻求帮助

正如Amy所说,请勿使用正则表达式来解析HTML。 您可以从NuGet安装Html Agility Pack并使用System.Linq命名空间进行解析。

例如这里:

string html = "<html><head></head><body><p class='testclass'>This is a paragraph.</p><table><tr><td>Di, 12.04.16</td><td>1</td><td>D</td><td>D</td><td>255</td><td>ABC</td><tr></table></body></html>";
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
var programmes = doc.DocumentNode.Descendants().Where(d => d.GetAttributeValue("class", "") == "testclass");
var trs = doc.DocumentNode.Descendants("tr"); // Give you all the trs
foreach (var tr in trs)
{
    var tds = tr.Descendants("td").ToArray(); // Get all the tds
    //Sample, show the result in a TextBlock
    foreach (var td in tds)
    {
        txt.Text = txt.Text + " " + td.InnerText;
    }
}

结果是这样的:

在此处输入图片说明

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM