繁体   English   中英

抓痒的蜘蛛会提取正确的网址,但忽略了网址参数

[英]scrapy spider extracts correct url but is ignoring url parameters

我有一个抓痒的抓取器,它使用SgmlLinkExtractor在像这样的规则中从图像映射中提取链接,

Rule(SgmlLinkExtractor(allow_domains=('pressen-haas.de'),
                       restrict_xpaths=('//map[@name="bildmaschinen"]')))

如果您想看一下,起始URL是http://www.pressen-haas.de/neu//machines.php?lang=en 生成的url的格式为http://www.pressen-haas.de/neu//masch_cat.php?lang=en&phid=0 ,其中phid参数的范围是0到8。 9个不同的URL并对其进行爬网,问题在于,当蜘蛛获取这些页面时,如果您在浏览器中输入URL,则所有存在的信息都不可用。 我写了一个回调来测试它

hxs = HtmlXPathSelector(response)
print hxs.select('//text()').extract()

看看那里是什么,如果您在浏览器中输入url 并删除第二个url参数(http://www.pressen-haas.de/neu/masch_cat.php?lang=en) ,则结果与您看到的完全一样

我检查了Spider是否正在爬网正确的URL,可以将爬网的URL从Spider输出日志复制到浏览器中,并且它们可以正常工作,为什么我可以在浏览器中看到这些URL,但是Spider看到的却有所不同?

提前致谢。

蜘蛛试图抓取的页面的html格式非常错误,我可以肯定这是问题所在,而不是蜘蛛本身存在问题。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM