繁体   English   中英

如何在python脚本中使用scrapy的Spider和LinkExtractor?

[英]How to use scrapy's Spider and LinkExtractor in python script?

我找到了有关如何从任何网站提取所有可用链接的主题的一些答案,并且所有这些都是关于scrapy模块的。 还复制了以下代码示例之一:

from scrapy import Spider
from scrapy.linkextractors import LinkExtractor

class MySpider(Spider):
    name = 'myspider'
    start_urls = ['http://webpage.com']

    def parse(self, response):
        le = LinkExtractor()
        for link in le.extract_links(response):
            print (link)

但是我需要启动它并获取所有html页面的简单python列表,以使用urllib2bs4从其中获取一些信息。 如何正确启动此类以获取此列表?

scrapy是抓取网站的绝佳工具,但不仅仅是您发布的摘要。 您发布的内容是蜘蛛定义。 如果嵌入在scrapy项目中,则可以运行此Spider,例如在您的终端中使用scrapy crawl myspider

然后,您的蜘蛛将访问http://webpage.com提取其所有链接并递归地跟踪它们。 每个网址都会打印出来,仅此而已。 为了存储这些链接,您可以创建所谓的项目,然后可以通过已定义的项目管道将其导出。 有漏洞的事情太复杂了,无法在单个答案中发布。 底线是:是的,scrapy是可用于链接提取的强大工具,最好的起点是使用scrapy教程: https ://docs.scrapy.org/en/latest/intro/tutorial.html

幸运的是,草率的文档很棒:)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM