Xpath在控制台中正確定位html元素，但在scrapy響應中使用時返回空數組

Question

我使用Scrapy Framework創建了一個Webscraper，以從該網站獲取音樂會門票數據。 我已經能夠成功地抓取一些選擇器的數據，這些選擇器本質上只是html文本，但是其他一些選擇器正在收集任何內容。 當我嘗試從每張票中刮起演唱會日期時，盡管我使用的xpath在開發人員控制台中運行時都會返回所有正確的日期，但響應中仍返回一個空數組。 我在類定義中定義項目的方式有問題嗎？ 任何幫助將不勝感激：

from scrapy.contrib.spiders import CrawlSpider 
from scrapy.selector import HtmlXPathSelector
from scrapy.selector import Selector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
from concert_comparator.items import ComparatorItem

bandname = raw_input("Enter a bandname \n")
vs_url = "http://www.vividseats.com/concerts/" + bandname + "-tickets.html"

class MySpider(CrawlSpider):
    handle_httpstatus_list = [416]
    name = 'comparator'
    allowed_domains = ["www.vividseats.com"]
    start_urls = [vs_url]
    #rules = (Rule(LinkExtractor(allow=('-tickets/.*', )), callback='parse_item'))
    # item = ComparatorItem()
    tickets_list_xpath = './/*[@itemtype="http://schema.org/Event"]'
    item_fields = {
        'eventName' : './/*[@class="productionsEvent"]/text()',
        #'ticketPrice' : '//*[@class="eventTickets lastChild"]/div/div/@data-origin-price',
        'eventLocation' : './/*[@class = "productionsVenue"]/span[@itemprop  = "name"]/text()',
        'ticketsLink' : './/a/@href',
        #returns empty set
        'eventDate' : './/*[@class = "productionsDateCol productionsDateCol sorting_3"]/div[@class = "productionsDate"]/text()',
        'eventCity' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressLocality"]/text()',
        'eventState' : './/*[@class = "productionsVenue"]/span[@itemprop  = "address"]/span[@itemprop  = "addressRegion"]/text()',
        #returns empty set
        'eventTime' : './/*[@class = "productionsDateCol productionsDateCol sorting_3"]/div[@class = "productionsTime"]/text()'
    }
    def parse(self, response):
        selector = HtmlXPathSelector(response)
        # iterate over tickets
        for ticket in selector.select(self.tickets_list_xpath):

            loader = XPathItemLoader(ComparatorItem(), selector=ticket)
            # define loader
            loader.default_input_processor = MapCompose(unicode.strip)
            loader.default_output_processor = Join()
            # iterate over fields and add xpaths to the loader
            for field, xpath in self.item_fields.iteritems():
                loader.add_xpath(field, xpath)
            yield loader.load_item()

Answer 1

不確定原因，但經過反復試驗，我找到了要使用的正確xpath。 通過簡單地使用我嘗試提取文本的標記中的類賦值語句，我便可以為頁面上的所有票證刮取元素。
例如eventDate：'.//*[@class =“ productionsDate”] / text（）'

Xpath在控制台中正確定位html元素，但在scrapy響應中使用時返回空數組

問題描述

1 個解決方案

解決方案1
0 已采納 2015-06-28 21:05:56

Xpath在控制台中正確定位html元素，但在scrapy響應中使用時返回空數組

問題描述

1 個解決方案

解決方案1 0 已采納 2015-06-28 21:05:56

解決方案1
0 已采納 2015-06-28 21:05:56