Spynner崩溃Python

Question

我正在构建Django应用，并且正在使用Spynner进行网络爬网。 我有这个问题，希望有人能帮助我。

我在模块“ crawler.py”中具有此功能：

import spynner 

def crawling_js(url)
    br = spynner.Browser()
    br.load(url)
    text_page = br.html
    br.close (*)
    return text_page

（*）我也尝试过br.close（）
在另一个模块（例如：“ import.py”）中，我以这种方式调用该函数：

from crawler import crawling_js    

l_url = ["https://www.google.com/", "https://www.tripadvisor.com/", ...]

for url in l_url:
    mytextpage = crawling_js(url)
    .. parse mytextpage....

当我将第一个url传递给函数时，当我传递第二个“ url” python崩溃时，一切都是正确的。 Python在此行崩溃：br.load（url）。 有人能帮助我吗？ 非常感谢

我有：Django 1.3 Python 2.7 Spynner 1.1.0 PyQt4 4.9.1

Answer 1

为什么需要实例化br = spynner.Browser（）并在每次调用crawling_js（）时将其关闭。 在一个循环中，这将占用大量资源，我认为这是崩溃的原因。 让我们这样想吧，br是一个浏览器实例。 因此，您可以使其浏览任意数量的网站，而无需将其关闭并再次打开。 通过以下方式调整代码：

import spynner

br = spynner.Browser() #you open it only once.

def crawling_js(url):
    br.load(url)
    text_page = br._get_html() #_get_html() to make sure you get the updated html
    return text_page

然后，如果您坚持以后要关闭br，则只需执行以下操作：

from crawler import crawling_js , br

l_url = ["https://www.google.com/", "https://www.tripadvisor.com/", ...]

for url in l_url:
    mytextpage = crawling_js(url)
    .. parse mytextpage....

br.close()

Spynner崩溃Python

问题描述

1 个解决方案

解决方案1
0 已采纳 2012-05-31 13:16:16

Spynner崩溃Python

问题描述

1 个解决方案

解决方案1 0 已采纳 2012-05-31 13:16:16

解决方案1
0 已采纳 2012-05-31 13:16:16