繁体   English   中英

使用curl来抓取大页面

[英]Using curl for scraping large pages

我正试图从一个受欢迎的新闻网站上搜索使用curl进行学术研究的评论。 它适用于<300条评论的文章,​​但在此之后它会挣扎。

$handle = curl_init($url);
curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);
$html = curl_exec($handle);
curl_close($handle);
echo $html; //just to see what's been scraped

目前此页面工作正常: http//www.guardian.co.uk/commentisfree/2012/aug/22/letter-from-india-women-drink? commentpage= all# start-of- comments

但是这个只返回36条评论,尽管总共有700多条评论: http//www.guardian.co.uk/commentisfree/2012/aug/21/everyones-talking-about-rape? commentpage=all#start-of -评论

为什么它会为那些有大量评论的文章而苦苦挣扎?

您的评论页面已被页面化。 每个页面都包含不同的评论。 您必须请求所有评论分页链接。

参数page=x将附加到不同页面的URL。

获得基页然后搜索页面参数的所有链接并依次请求每个链接可能会很好吗?

正如迈克克里斯滕森指出你是否可以使用内置功能的python和scrapy。你只需要指定注释所在的元素,python将抓取页面上的所有链接:)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM