正则表达式解析超链接和描述

Question

C＃：解析超链接及其描述的优秀正则表达式是什么？

请考虑不区分大小写，空白区域以及在HREF标记周围使用单引号（而不是双引号）。

另请考虑获取<a>标签中包含其他标签的超链接，例如<b>和<i> 。

Answer 1

只要没有嵌套标签（并且没有换行符），以下变体就可以正常工作：

<a\s+href=(?:"([^"]+)"|'([^']+)').*?>(.*?)</a>

一旦嵌套标签发挥作用，正则表达式就不适合解析。 但是，您仍然可以通过应用现代解释器的更高级功能（取决于您的正则表达式计算机）来使用它们。 例如.NET正则表达式使用堆栈; 我找到了这个：

(?:<a.*?href=[""'](?<url>.*?)[""'].*?>)(?<name>(?><a[^<]*>(?<DEPTH>)|</a>(?<-DEPTH>)|.)+)(?(DEPTH)(?!))(?:</a>)

资料来源： http ： //weblogs.asp.net/scottcate/archive/2004/12/13/281955.aspx

Answer 2

从StackOverflow中查看此示例：用于解析网页链接的正则表达式？

使用HTML Agility Pack，您可以解析html，并使用HTML的语义提取详细信息，而不是破坏正则表达式。

Answer 3

我找到了这个，但显然这些家伙有一些问题。

编辑:( 它的工作原理！）
我现在已经完成了自己的测试，发现它有效，我不知道C＃所以我不能给你一个C＃的答案，但我知道PHP，这里是我在运行它时得到的匹配数组：

<a href="pages/index.php" title="the title">Text</a>

array(3) { [0]=> string(52) "Text" [1]=> string(15) "pages/index.php" [2]=> string(4) "Text" }

Answer 4

我有一个处理大多数情况的正则表达式，但我相信它在多行注释中匹配HTML。

它是使用.NET语法编写的，但应该很容易翻译。

Answer 5

我现在就把这个片段扔到那里我已经有了它。这是一个不太贪婪的版本。 如果输入有多个超链接，原始将无法工作。 下面的代码将允许您遍历所有超链接：

static Regex rHref = new Regex(@"<a.*?href=[""'](?<url>[^""^']+[.]*?)[""'].*?>(?<keywords>[^<]+[.]*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Compiled);
public void ParseHyperlinks(string html)
{
   MatchCollection mcHref = rHref.Matches(html);

   foreach (Match m in mcHref)
      AddKeywordLink(m.Groups["keywords"].Value, m.Groups["url"].Value);
}

Answer 6

这是一个与平衡标签匹配的正则表达式。

（？？？？（>（）|（< - DEPTH>）|）+）（？！（深度）（））：（？？ “” '[ “”'] *>）（?: ）

正则表达式解析超链接和描述

问题描述

6 个解决方案

解决方案1
6 已采纳 2008-08-25 16:21:47

解决方案2
3 2008-09-19 09:11:17

解决方案3
1 2008-08-25 16:09:11

解决方案4
1 2008-08-25 16:26:44

解决方案5
0 2009-11-12 06:08:13

解决方案6
0 2009-11-29 15:37:25

正则表达式解析超链接和描述

问题描述

6 个解决方案

解决方案1 6 已采纳 2008-08-25 16:21:47

解决方案2 3 2008-09-19 09:11:17

解决方案3 1 2008-08-25 16:09:11

解决方案4 1 2008-08-25 16:26:44

解决方案5 0 2009-11-12 06:08:13

解决方案6 0 2009-11-29 15:37:25

解决方案1
6 已采纳 2008-08-25 16:21:47

解决方案2
3 2008-09-19 09:11:17

解决方案3
1 2008-08-25 16:09:11

解决方案4
1 2008-08-25 16:26:44

解决方案5
0 2009-11-12 06:08:13

解决方案6
0 2009-11-29 15:37:25