请帮助我定义一个perl正则表达式

Question

我是新手。 请帮忙。 我正在努力爬行

<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>

在网页中。 我想抓住/ v / name / idlike123123ksajdfk部分。 （知道

<div class="name"><a href="/v/

部分是固定的）所以我写了正则表达式（可以让你发笑）：

~m#<div class="name"><a href="(/v/.*?)">#

如果您更正我的愚蠢代码，这将非常有帮助。

Answer 1

使用功能强大的HTML解析器（有关原因，请参见http://htmlparsing.com/ ）：

use strictures;
use Web::Query qw();
my $w = Web::Query->new_from_html(<<'HTML');
<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>
<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>
<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>
<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>
<div class="name"><a href="/v/name/idlike123123ksajdfk">name</a></div>
HTML

my @v_links = $w->find('div.name > a[href^="/v/"]')->attr('href');

Answer 2

有很多Perl模块可以从HTML中提取链接。 WWW :: Mechanize ， Mojo :: DOM ， HTML :: LinkExtor和HTML :: SimpleLinkExtor都可以做到这一点。

Answer 3

使用Mojolicious进行Web抓取可能是当今在Perl中最简单的方法

http://mojolicio.us/perldoc/Mojolicious/Guides/Cookbook#Web_scraping

Answer 4

您不应该使用regex来解析HTML ，因为有很多库可以进行此类解析。

达西姆的答案就是一个很好的例子。

但是，如果仍然要使用正则表达式，并且将文本分配给$_ ，则

my @list = m{<div class="name"><a href="(/v/.*?)">}g;

将为您提供所有发现的列表。

请帮助我定义一个perl正则表达式

问题描述

4 个解决方案

解决方案1
6 已采纳 2012-05-18 11:47:07

解决方案2
1 2012-05-18 19:27:17

解决方案3
1 2012-06-12 19:09:03

解决方案4
0 2012-05-18 11:47:40

请帮助我定义一个perl正则表达式

问题描述

4 个解决方案

解决方案1 6 已采纳 2012-05-18 11:47:07

解决方案2 1 2012-05-18 19:27:17

解决方案3 1 2012-06-12 19:09:03

解决方案4 0 2012-05-18 11:47:40

解决方案1
6 已采纳 2012-05-18 11:47:07

解决方案2
1 2012-05-18 19:27:17

解决方案3
1 2012-06-12 19:09:03

解决方案4
0 2012-05-18 11:47:40