Scrapy Crawl Spider沒有關注鏈接

Question

所以我寫了一個網絡爬蟲來從walmart.com中提取食物。 這是我的蜘蛛。 我似乎無法弄清楚為什么它不遵循左邊的鏈接，直到。 它拉出主頁然后完成。

我的目標是讓它跟隨左側彈出欄上的所有鏈接，然后從這些頁面中提取每個食物項目。

我甚至嘗試使用allow =（），以便它跟隨頁面上的每個鏈接，但仍然無效。

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor as sle
from walmart_scraper.items import GroceryItem


class WalmartFoodSpider(CrawlSpider):
    name = "walmart_scraper"
    allowed_domains = ["www.walmart.com"]
    start_urls = ["http://www.walmart.com/cp/976759"]
    rules = (Rule(sle(restrict_xpaths=('//div[@class="lhn-menu-flyout-inner lhn-menu-flyout-2col"]/ul[@class="block-list"]/li/a',)),callback='parse',follow=True),)

    items_list_xpath = '//div[@class="js-tile tile-grid-unit"]'

item_fields = {'title': './/a[@class="js-product-title"]/h3[@class="tile-heading"]/div',
               'image_url': './/a[@class="js-product-image"]/img[@class="product-image"]/@src',
               'price': './/div[@class="tile-price"]/div[@class="item-price-            container"]/span[@class="price price-display"]|//div[@class="tile-price"]/div[@class="item-price-   container"]/span[@class="price price-display price-not-available"]',
               'category': '//nav[@id="breadcrumb-container"]/ol[@class="breadcrumb-list"]/li[@class="js-breadcrumb breadcrumb "][2]/a',
               'subcategory': '//nav[@id="breadcrumb-container"]/ol[@class="breadcrumb-list"]/li[@class="js-breadcrumb breadcrumb active"]/a',
               'url': './/a[@class="js-product-image"]/@href'}
def parse(self, response):

    selector = HtmlXPathSelector(response)

    # iterate over deals
    for item in selector.select(self.items_list_xpath):
        loader = XPathItemLoader(GroceryItem(), selector=item)

        # define processors
        loader.default_input_processor = MapCompose(unicode.strip)
        loader.default_output_processor = Join()

        # iterate over fields and add xpaths to the loader
        for field, xpath in self.item_fields.iteritems():
            loader.add_xpath(field, xpath)
        yield loader.load_item()

Answer 1

使用CrawlSpider時，不應該覆蓋parse()方法。 您應該在Rule使用其他名稱設置自定義callback 。
以下是官方文檔的摘錄：

編寫爬網蜘蛛規則時，請避免使用parse作為回調，因為CrawlSpider使用parse方法本身來實現其邏輯。 因此，如果您覆蓋解析方法，則爬網蜘蛛將不再起作用。

Scrapy Crawl Spider沒有關注鏈接

問題描述

1 個解決方案

解決方案1
5 2014-12-05 09:18:17

Scrapy Crawl Spider沒有關注鏈接

問題描述

1 個解決方案

解決方案1 5 2014-12-05 09:18:17

解決方案1
5 2014-12-05 09:18:17