如何在python脚本中使用scrapy的Spider和LinkExtractor？

Question

我找到了有关如何从任何网站提取所有可用链接的主题的一些答案，并且所有这些都是关于scrapy模块的。 还复制了以下代码示例之一：

from scrapy import Spider
from scrapy.linkextractors import LinkExtractor

class MySpider(Spider):
    name = 'myspider'
    start_urls = ['http://webpage.com']

    def parse(self, response):
        le = LinkExtractor()
        for link in le.extract_links(response):
            print (link)

但是我需要启动它并获取所有html页面的简单python列表，以使用urllib2和bs4从其中获取一些信息。 如何正确启动此类以获取此列表？

Answer 1

scrapy是抓取网站的绝佳工具，但不仅仅是您发布的摘要。 您发布的内容是蜘蛛定义。 如果嵌入在scrapy项目中，则可以运行此Spider，例如在您的终端中使用scrapy crawl myspider 。

然后，您的蜘蛛将访问http://webpage.com提取其所有链接并递归地跟踪它们。 每个网址都会打印出来，仅此而已。 为了存储这些链接，您可以创建所谓的项目，然后可以通过已定义的项目管道将其导出。 有漏洞的事情太复杂了，无法在单个答案中发布。 底线是：是的，scrapy是可用于链接提取的强大工具，最好的起点是使用scrapy教程： https ://docs.scrapy.org/en/latest/intro/tutorial.html

幸运的是，草率的文档很棒:)

如何在python脚本中使用scrapy的Spider和LinkExtractor？

问题描述

1 个解决方案

解决方案1
1 已采纳 2019-06-17 08:42:29

如何在python脚本中使用scrapy的Spider和LinkExtractor？

问题描述

1 个解决方案

解决方案1 1 已采纳 2019-06-17 08:42:29

解决方案1
1 已采纳 2019-06-17 08:42:29