[英]scrapy spider extracts correct url but is ignoring url parameters
我有一个抓痒的抓取器,它使用SgmlLinkExtractor在像这样的规则中从图像映射中提取链接,
Rule(SgmlLinkExtractor(allow_domains=('pressen-haas.de'),
restrict_xpaths=('//map[@name="bildmaschinen"]')))
如果您想看一下,起始URL是http://www.pressen-haas.de/neu//machines.php?lang=en 。 生成的url的格式为http://www.pressen-haas.de/neu//masch_cat.php?lang=en&phid=0 ,其中phid参数的范围是0到8。 9个不同的URL并对其进行爬网,问题在于,当蜘蛛获取这些页面时,如果您在浏览器中输入URL,则所有存在的信息都不可用。 我写了一个回调来测试它
hxs = HtmlXPathSelector(response)
print hxs.select('//text()').extract()
看看那里是什么,如果您在浏览器中输入url 并删除第二个url参数(即http://www.pressen-haas.de/neu/masch_cat.php?lang=en) ,则结果与您看到的完全一样
我检查了Spider是否正在爬网正确的URL,可以将爬网的URL从Spider输出日志复制到浏览器中,并且它们可以正常工作,为什么我可以在浏览器中看到这些URL,但是Spider看到的却有所不同?
提前致谢。
蜘蛛试图抓取的页面的html格式非常错误,我可以肯定这是问题所在,而不是蜘蛛本身存在问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.