运行scrapy spider时,我看到日志消息中包含“ DEBUG:”,其中包含1. DEBUG:已抓取(200)(GET http://www.example.com )(引用:无)。2. DEBUG:已从(200 http://www.example.com

我想知道1.对那些“抓取”和“从中抓取”意味着什么? 2.从这两个ULR上方返回的位置(即,在抓取变量/参数包含这些URL的页面时)

===============>>#1 票数:2 已采纳

让我尝试根据Scrapy网站上显示的Scrapy Sample Code进行解释。 我将其保存在scrapy_example.py文件中。

from scrapy import Spider, Item, Field

class Post(Item):
    title = Field()

class BlogSpider(Spider):
    name, start_urls = 'blogspider', ['http://blog.scrapinghub.com']

    def parse(self, response):
        return [Post(title=e.extract()) for e in response.css("h2 a::text")]

使用命令scrapy runspider scrapy_example.py执行此scrapy runspider scrapy_example.py ,将产生以下输出:

(...)
DEBUG: Crawled (200) <GET http://blog.scrapinghub.com> (referer: None) ['partial']
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Using git to manage vacations in a large distributed\xa0team'}
DEBUG: Scraped from <200 http://blog.scrapinghub.com>
    {'title': u'Gender Inequality Across Programming\xa0Languages'}
(...)

Crawled意味着:scrapy已下载该网页。

Scraped是指:scrapy已经从网页中提取一些数据。

URL在脚本中作为start_urls参数给出。

您的输出必须是通过运行Spider生成的。 搜索定义蜘蛛的文件,您应该能够找到定义URL的位置。

  ask by Prabhakar translate from so

未解决问题?本站智能推荐: