[英]wrong Xpath in IMDB spider scrapy
在这里: IMDB scrapy获取所有电影数据
response.xpath( “// * [@类= '结果'] / TR / TD [3]”)
返回空列表。 我试图将其更改为:
response.xpath(“ // * [包含(@class,'图表全角')] / tbody / tr”)
没有成功。
有什么帮助吗? 谢谢。
我没有时间去仔细研究IMDB来彻底获取所有电影数据 ,但要点是。 问题语句是从给定站点获取所有电影数据。 它涉及两件事。 首先是浏览包含该年所有电影列表的所有页面。 第二个是获取每个电影的链接,然后在这里您自己做魔术。
您面临的问题是获取每个电影的链接的xpath。 这很可能是由于网站结构的变化(我没有时间来验证可能的差异)。 无论如何,以下是您需要的xpath
。
首先:
我们将div
类nav
作为地标,并在其子级中找到lister-page-next next-page
。
response.xpath("//div[@class='nav']/div/a[@class='lister-page-next next-page']/@href").extract_first()
这将给出: 指向下一页的链接 | 如果在最后一页 ,则返回None
(因为不存在下一页标签)
第二:
这是OP最初的怀疑。
#Get the list of the container having the title, etc
list = response.xpath("//div[@class='lister-item-content']")
#From the container extract the required links
paths = list.xpath("h3[@class='lister-item-header']/a/@href").extract()
现在,您需要做的就是遍历每个paths
元素并请求页面。
感谢您的回答。 我最终像这样使用了xPath:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from crawler.items import MovieItem
IMDB_URL = "http://imdb.com"
class IMDBSpider(CrawlSpider):
name = 'imdb'
# in order to move the next page
rules = (Rule(LinkExtractor(allow=(), restrict_xpaths=("//div[@class='nav']/div/a[@class='lister-page-next next-page']",)),
callback="parse_page", follow= True),)
def __init__(self, start=None, end=None, *args, **kwargs):
super(IMDBSpider, self).__init__(*args, **kwargs)
self.start_year = int(start) if start else 1874
self.end_year = int(end) if end else 2017
# generate start_urls dynamically
def start_requests(self):
for year in range(self.start_year, self.end_year+1):
# movies are sorted by number of votes
yield scrapy.Request('http://www.imdb.com/search/title?year={year},{year}&title_type=feature&sort=num_votes,desc'.format(year=year))
def parse_page(self, response):
content = response.xpath("//div[@class='lister-item-content']")
paths = content.xpath("h3[@class='lister-item-header']/a/@href").extract() # list of paths of movies in the current page
# all movies in this page
for path in paths:
item = MovieItem()
item['MainPageUrl'] = IMDB_URL + path
request = scrapy.Request(item['MainPageUrl'], callback=self.parse_movie_details)
request.meta['item'] = item
yield request
# make sure that the start_urls are parsed as well
parse_start_url = parse_page
def parse_movie_details(self, response):
pass # lots of parsing....
使用scrapy crawl imdb -a start=<start-year> -a end=<end-year>
运行它
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.