Scrapy-如何抓取用javascript生成的内容？

Question

我正在尝试在http://www.head-fi.org/f/6550/headphones-for-sale-trade上抓取一些分类广告

我创建了一个蜘蛛，可以抓取标题，价格，说明等。它运行良好，但是我无法弄清楚该分页在该特定网站上的工作方式。 我相信它是用JavaScript生成的？ 由于网址不变。

这是我刮第一页的代码

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from headfi_headphones.items import HeadfiHeadphonesItem

class MySpider(CrawlSpider):
    name = "headfiheadphones"
    allowed_domains = ["head-fi.org"]
    start_urls = ["http://www.head-fi.org/f/6550/headphones-for-sale-trade"]

    #rules = (
    #    Rule(SgmlLinkExtractor(allow=(), restrict_xpaths=("//a[@class='tooltip']",)), callback="parse_items", follow= True),
    #)

def parse(self, response):
    hxs = HtmlXPathSelector(response)
    titles = hxs.xpath("//tr[@class='thread']")
    items = []
    for title in titles:
        item = HeadfiHeadphonesItem()
        item["title"] = title.select("td[@class='thread-col']/div[@class='shazam']/div[@class='thumbnail_body']/a[@class='classified-title']/text()").extract()
        item["link"] = title.select("td[@class='thread-col']/div[@class='shazam']/div[@class='thumbnail_body']/a[@class='classified-title']/@href").extract()
        item["img"] = title.select("td[@class='thread-col']/div[@class='shazam']/div[@class='thumbnail']/a[@class='thumb']/img/@src").extract()
        item["saletype"] = title.select("td/strong/text()").extract()
        item["price"] = title.select("td/div[@class='price']/span[@class='ctx-price']/text()").extract()
        item["currency"] = title.select("td/div[@class='price']/span[@class='currency']/text()").extract()
        items.append(item)
    return items

它返回类似这样的内容（我已经包含了一个条目）

{"img": ["http://cdn.head-fi.org/9/92/80x80px-ZC-9228072e_image.jpeg"], "title": ["Hifiman HE1000 Mint"], "saletype": ["For Sale"], "price": ["$2,000"], "currency": ["(USD)"], "link": ["/t/819200/hifiman-he1000-mint"]},

有没有办法通过我认为是javascript的方式来刮擦正在表中填充的每个页面（1-80左右）？

Answer 1

为了正确地解析Javascript，您应该考虑使用selenium 。 该软件包可在以下位置获得： https : //pypi.python.org/pypi/selenium 。

Scrapy-如何抓取用javascript生成的内容？

问题描述

1 个解决方案

解决方案1
0 2017-01-30 00:48:43

Scrapy-如何抓取用javascript生成的内容？

问题描述

1 个解决方案

解决方案1 0 2017-01-30 00:48:43

解决方案1
0 2017-01-30 00:48:43