![](/img/trans.png)
[英]Scrapy Python spider unable to find links using LinkExtractor or by manual Request()
[英]How to use scrapy's Spider and LinkExtractor in python script?
我找到了有关如何从任何网站提取所有可用链接的主题的一些答案,并且所有这些都是关于scrapy模块的。 还复制了以下代码示例之一:
from scrapy import Spider
from scrapy.linkextractors import LinkExtractor
class MySpider(Spider):
name = 'myspider'
start_urls = ['http://webpage.com']
def parse(self, response):
le = LinkExtractor()
for link in le.extract_links(response):
print (link)
但是我需要启动它并获取所有html页面的简单python列表,以使用urllib2
和bs4
从其中获取一些信息。 如何正确启动此类以获取此列表?
scrapy是抓取网站的绝佳工具,但不仅仅是您发布的摘要。 您发布的内容是蜘蛛定义。 如果嵌入在scrapy项目中,则可以运行此Spider,例如在您的终端中使用scrapy crawl myspider
。
然后,您的蜘蛛将访问http://webpage.com
提取其所有链接并递归地跟踪它们。 每个网址都会打印出来,仅此而已。 为了存储这些链接,您可以创建所谓的项目,然后可以通过已定义的项目管道将其导出。 有漏洞的事情太复杂了,无法在单个答案中发布。 底线是:是的,scrapy是可用于链接提取的强大工具,最好的起点是使用scrapy教程: https ://docs.scrapy.org/en/latest/intro/tutorial.html
幸运的是,草率的文档很棒:)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.