繁体   English   中英

scraperwiki:为什么我的刮板只能使用1个网址,而不能使用其他网址?

[英]scraperwiki: why does my scraper work for 1 url but not another?

这是我的第一个刮板https://scraperwiki.com/scrapers/my_first_scraper_1/

我设法抓取google.com,但未抓取此页面。

http://subeta.net/pet_extra.php?act=read&petid=1014561

有什么原因吗?

我从这里开始关注文档。

https://scraperwiki.com/docs/php/php_intro_tutorial/

而且没有理由为什么该代码不起作用。

看起来您正在指定查找特定元素。 元素会根据您要抓取的站点而变化。 因此,如果找不到所需的元素,您将无法获得回报。 另外,我也会考虑使用curl创建自己的抓取/剪切工具。 您不仅会学到很多东西,而且会发现很多有关如何抓取网站的信息。

另外,您可能不想考虑遵守要从中进行抓取的网站上的robots.txt文件,或者在进行抓取之前先征得许可,因为这被认为是不礼貌的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM