我的项目中有几个蜘蛛,我想将每个蜘蛛记录在独立的日志文件中(例如brand.log,product.log ...)。

因此,我对每个蜘蛛使用了custom_settings ,但它似乎不起作用。 到现在为止还是个错误吗? 有没有简单的配置可以解决这个问题?

非常感谢您的帮助!

#1楼 票数:0 已采纳

它为我工作。 这是一个虚拟项目中的蜘蛛:

# -*- coding: utf-8 -*-
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com/']

    custom_settings = {
        'LOG_FILE': '/tmp/example.log',
    }

    def parse(self, response):
        self.logger.info('XXXXX')

我使用scrapy crawl example启动了Spider,并且日志文件已成功写入/tmp/example.log

  ask by pyfreyr translate from so

未解决问题?本站智能推荐:

1回复

如何根据scrapy中的日志条目来源有选择地设置log_level?

是否可以将[scrapy.core.engine]和[scrapy.extensions.logstats]的日志级别设置为'INFO'以及我的自定义记录器,并将其他所有设置为'WARNING'? 我想这样做是为了清除日志文件中的一些混乱情况。 提前致谢! 编辑: 我尝试按照
1回复

如果声明不适用于scrapy中的蜘蛛

我是python / scrapy新手。 我正在尝试抓取一个网站进行练习,基本上我想要完成的工作是拉扯所有活跃的公司并将其下载到CSV文件。 您可以看到我的代码粘贴在下面,我添加了一个IF语句,但它似乎没有用,并且我不确定自己在做什么错。 我还认为蜘蛛会根据其输出多次爬网该网站。 我
1回复

scrapy-splash xpath 选择器适用于 shell 但不适用于蜘蛛

问题: 我正在使用 scrapy-splash 来抓取 youtube 视频页面。 但是,除了keywords元素之外,xpath 似乎不返回任何元素。 (xpath都是直接从Chrome复制过来的) 我尝试过的事情: 起初我认为这是因为当 parse 被调用时页面还没有完全加载,所以我改变了
1回复

Scrapy:为每个蜘蛛以不同的设置顺序运行蜘蛛

好几天了,我在Main.py中遇到了Scrapy /twisted 问题,它应该运行不同的蜘蛛并分析它们的输出。 不幸的是, MySpider2 依赖于来自MySpider1的 FEED,因此只能在 MySpider1 完成后运行。 此外, MySpider1 和 MySpider2 具有不同的设置
2回复

拼凑项目的通用蜘蛛

我正在为多个网站创建通用蜘蛛(Scrapy Spider)。 下面是我的项目目录结构。 常见的 蜘蛛 stackoverflow_com.py 从以上脚本中,我不想触摸spider.py(假设所有网站都具有相同的结构,以便我可以对所有蜘蛛使用spider.py)
1回复

为什么Scrapy不适用于此页面?

我正在尝试抓取此网页: 这是我的代码: 但是我得到这个: 为什么?
1回复

分页不适用于基本的 webscraper

第一页效果很好,但它不会读取后续页面。 我从其他教程中尝试了许多不同的代码变体,但没有成功。 我在scrapy中没有收到任何错误代码。 Scrapy 只是表示它已完成。
2回复

Selenium CSS 选择器(适用于 Scrapy 但不适用于 Selenium)Python

我可能尝试过各种选择器,但无法将此选择器作为文本输出。 Id、css 选择器、xpath 都没有返回结果,但是当在 Scrapy shell 中使用相同的引用时,会返回所需的输出。 知道为什么 Selenium 选择器不起作用吗? 我正在尝试返回 masterBody_trSalesDate