正则表达式模式的简单问题

Question

请帮我从这个标签中获取链接和文字。 <h3 class="post-title entry-title"> ，因为我想要来自该特定标签的链接。

<h3 class="post-title entry-title">
<a href="http://mymplogk.blogspot.com/2011/03/h_25.html">Text</a>
</h3>

到目前为止我的工作是

<?php

$string = file_get_contents('http://www.domain.com');

$regex_pattern = "";

unset($matches);
preg_match_all($regex_pattern, $string, $matches);


foreach ($matches[0] as $paragraph) {
echo $paragraph;
echo "<br>";
}
?>

先感谢您

Answer 1

不要使用正则表达式来解析HTML。 这是个坏主意。 使用HTML / XML解析器。 由于您使用的是PHP，因此可以尝试使用PHP Tidy或DOMDocument 。 它会让你的生活更轻松。

Answer 2

我建议你使用DOMDocument和XPath从页面中提取url而不是使用regexp。

本教程为您提供了一些如何使用xpath和dom的初学者。 http://www.merchantos.com/blog/makebeta/php/scraping-links-with-php#php_dom

编辑：如果你在firefox中使用firebug-addon，你可以在页面上检查你的元素，并复制它的xpath。

Answer 3

正则表达式：

(?<=href=").+(?=")

应匹配href标签之间的任何内容

您可以在RegexStorm中测试它

Answer 4

按照你的例子，这个正则表达式将找到“http://mymplogk.blogspot.com/2011/03/h_25.html”和“文本”：

$regex_pattern = '/<h3[^>]+class\s*=\s*[\'"]post-title entry-title[\'"][^>]*>.*?<a[^>]+href\s*=\s*"([^"]+)"[^>]*>([^<]*)</s';

这匹配h3标记周围的单引号或双引号，并允许h3标记中的其他属性以及属性和值之间的可选空格。 它也在$ string中匹配多次，例如

$string = '<h3 class="post-title entry-title">
<a href="http://mymplogk.blogspot.com/2011/03/h_25.html">Text</a>
</h3>
<p>doot</p>
<h3 class=\'post-title entry-title\'>
<a href="http://www.google.com/">More Text</a>
</h3>';

正则表达式模式的简单问题

问题描述

4 个解决方案

解决方案1
2 2011-03-24 23:05:54

解决方案2
0 2011-03-24 23:05:09

解决方案3
0 2011-03-24 23:06:49

解决方案4
0 已采纳 2011-03-24 23:14:16

正则表达式模式的简单问题

问题描述

4 个解决方案

解决方案1 2 2011-03-24 23:05:54

解决方案2 0 2011-03-24 23:05:09

解决方案3 0 2011-03-24 23:06:49

解决方案4 0 已采纳 2011-03-24 23:14:16

解决方案1
2 2011-03-24 23:05:54

解决方案2
0 2011-03-24 23:05:09

解决方案3
0 2011-03-24 23:06:49

解决方案4
0 已采纳 2011-03-24 23:14:16