繁体   English   中英

在Costom python脚本中从scrapy抓取网站后,如何获取网址列表?

[英]How we can get List of urls after crawling website from scrapy in costom python script?

我正在使用一个脚本,在该脚本中,我需要爬网网站,仅需要爬网base_url站点。 任何人都有一个很好的主意,我如何才能在自定义python脚本中启动Scarpy并在列表中获取URL链接?

您可以使用文件将网址从scrapy传递到python脚本。

或者您可以在scrapy中打印带有标记的网址,然后使用python脚本捕获您scrapy的标准输出,然后将其解析以列出。

您可以通过将scrapy.commands部分添加到setup.py中的entry_points中来从外部库添加Scrapy命令。

from setuptools import setup, find_packages

setup(name='scrapy-mymodule',
  entry_points={
    'scrapy.commands': [
      'my_command=my_scrapy_module.commands:MyCommand',
    ],
  },
 )

http://doc.scrapy.org/en/latest/experimental/index.html?highlight=library#add-commands-using-external-libraries

另请参阅Scrapy基本示例

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM