如何在Scrapy / Twisted中使用线程，即如何在响应回调中执行异步调用阻塞代码？

Question

我需要在Scrapy中运行一些多线程\\多处理工作（因为我有一些使用阻塞调用的库），并在完成之后将请求发送回Scrapy引擎。

我需要这样的东西：

def blocking_call(self, html):
    # ....
    # do some work in blocking call
    return Request(url)

def parse(self, response):
    return self.blocking_call(response.body)

我怎么能这样做？ 我想我应该使用Twisted reactor和Deferred对象。 但是Scrapy parse回调必须只返回None或Request或BaseItem对象。

Answer 1

根据@ Jean-Paul Calderone的回答，我做了一些调查和测试，这是我发现的。

内部scrapy使用Twisted框架来管理请求/响应同步和异步调用。

Scrapy以异步方式生成请求（爬网），但处理响应（我们的自定义解析回调函数）是同步完成的。 因此，如果您在回调中有阻塞调用， 它将阻止整个引擎 。

希望这可以改变。 处理延迟响应回调结果时，如果Deferred对象返回其他Deferred对象，Twisted将处理大小写（twisted.internet.defer.Deferred source）。 在这种情况下，Twisted会产生新的异步调用。

基本上，如果我们从响应回调中返回Deferred对象 ，这将改变响应回调调用从同步到异步的性质 。 为此，我们可以使用方法deferToThread （内部调用 deferToThreadPool(reactor, reactor.getThreadPool()... - 在@ Jean-Paul Calderone代码示例中使用）。

工作代码示例是：

from twisted.internet.threads import deferToThread
from twisted.internet import reactor

class SpiderWithBlocking(...):
    ...
    def parse(self, response):
        return deferToThread(reactor, self.blocking_call, response.body)

    def blocking_call(self, html):
        # ....
        # do some work in blocking call
        return Request(url)

此外，只有回调可以返回Deferred对象，但start_requests不能（scrapy逻辑）。

Answer 2

如果要在阻塞操作完成在其中一个reactor的线程池线程中运行后返回触发的Deferred ，请使用deferToThreadPool ：

from twisted.internet.threads import deferToThreadPool
from twisted.internet import reactor

...

    def parse(self, response):
        return deferToThreadPool(
            reactor, reactor.getThreadPool(), self.blocking_call, response.body)

如何在Scrapy / Twisted中使用线程，即如何在响应回调中执行异步调用阻塞代码？

问题描述

2 个解决方案

解决方案1
5 2015-09-10 09:29:08

解决方案2
4 已采纳 2014-09-15 11:07:51

如何在Scrapy / Twisted中使用线程，即如何在响应回调中执行异步调用阻塞代码？

问题描述

2 个解决方案

解决方案1 5 2015-09-10 09:29:08

解决方案2 4 已采纳 2014-09-15 11:07:51

解决方案1
5 2015-09-10 09:29:08

解决方案2
4 已采纳 2014-09-15 11:07:51