抓痒的蜘蛛会提取正确的网址，但忽略了网址参数

Question

我有一个抓痒的抓取器，它使用SgmlLinkExtractor在像这样的规则中从图像映射中提取链接，

Rule(SgmlLinkExtractor(allow_domains=('pressen-haas.de'),
                       restrict_xpaths=('//map[@name="bildmaschinen"]')))

如果您想看一下，起始URL是http://www.pressen-haas.de/neu//machines.php?lang=en 。 生成的url的格式为http://www.pressen-haas.de/neu//masch_cat.php?lang=en&phid=0 ，其中phid参数的范围是0到8。 9个不同的URL并对其进行爬网，问题在于，当蜘蛛获取这些页面时，如果您在浏览器中输入URL，则所有存在的信息都不可用。 我写了一个回调来测试它

hxs = HtmlXPathSelector(response)
print hxs.select('//text()').extract()

看看那里是什么，如果您在浏览器中输入url 并删除第二个url参数（即http://www.pressen-haas.de/neu/masch_cat.php?lang=en），则结果与您看到的完全一样

我检查了Spider是否正在爬网正确的URL，可以将爬网的URL从Spider输出日志复制到浏览器中，并且它们可以正常工作，为什么我可以在浏览器中看到这些URL，但是Spider看到的却有所不同？

提前致谢。

Answer 1

蜘蛛试图抓取的页面的html格式非常错误，我可以肯定这是问题所在，而不是蜘蛛本身存在问题。