C＃正则表达式匹配

Question

我需要使用RegEx替换C＃中的一些文本：

string strSText = "<P>Bulleted list</P><UL><P><LI>Bullet 1</LI><P></P><P>
<LI>Bullet 2</LI><P></P><P><LI>Bullet 3</LI><P></UL>"

基本上我需要摆脱

"<P>"

标签之间引入

"<UL><P><LI>", 
"</LI><P></P><P><LI>" and
"</LI><P></UL>"

执行删除操作时，我还需要忽略这些标签之间的任何空格。

所以

"</LI><P></P><P><LI>", "</LI>    <P></P><P><LI>", "</LI><P></P><P>   <LI>" or 
"</LI> <P> </P> <P> <LI>"

必须全部替换为

"</LI><LI>"

为此，我尝试使用以下RegEx匹配项：

strSText = Regex.Replace(strSText, "<UL>.*<LI>", "<UL><LI>", RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, "</LI>.*<LI>", "</LI><LI>", 
RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, "</LI>.*</UL>", "</LI></UL>", 
RegexOptions.IgnoreCase);

但是它执行“贪婪”匹配并导致：

"<P>Bulleted list</P><UL><LI>Bullet 3</LI></UL>"

然后，我尝试使用“惰性”匹配：

strSText = Regex.Replace(strSText, "<UL>.*?<LI>", "<UL><LI>", RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, "</LI>.*?<LI>", "</LI><LI>", 
RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, "</LI>.*?</UL>", "</LI></UL>", 
RegexOptions.IgnoreCase);

结果是：

"<P>Bulleted list</P><UL><LI>Bullet 1</LI></UL>"

但是我想要以下结果，该结果保留所有其他数据：

"<P>Bulleted list</P><UL><LI>Bullet 1</LI><LI>Bullet 2</LI><LI>Bullet 3</LI></UL>"

请帮忙！

Answer 1

以下正则表达式与一个或多个<P>或</P>标记匹配：

(?:</?P>\s*)+

因此，如果将其放在其他标签之间，则可以摆脱它们，即

strSText = Regex.Replace(strSText, @"<UL>\s*(?:</?P>\s*)+<LI>", "<UL><LI>", RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, @"</LI>\s*(?:</?P>\s*)+<LI>", "</LI><LI>", RegexOptions.IgnoreCase);
strSText = Regex.Replace(strSText, @"</LI>\s*(?:</?P>\s*)+</UL>", "</LI></UL>", RegexOptions.IgnoreCase);

Answer 2

并不是对您问题的真正答案，而是对Jonathon的更多评论：使用HTMLAgilityPack解析HTML

C＃正则表达式匹配

问题描述

2 个解决方案

解决方案1
1 2013-09-11 08:15:36

解决方案2
1 2013-09-11 08:58:43

C＃正则表达式匹配

问题描述

2 个解决方案

解决方案1 1 2013-09-11 08:15:36

解决方案2 1 2013-09-11 08:58:43

解决方案1
1 2013-09-11 08:15:36

解决方案2
1 2013-09-11 08:58:43