[英]How we can get List of urls after crawling website from scrapy in costom python script?
我正在使用一个脚本,在该脚本中,我需要爬网网站,仅需要爬网base_url站点。 任何人都有一个很好的主意,我如何才能在自定义python脚本中启动Scarpy并在列表中获取URL链接?
您可以使用文件将网址从scrapy传递到python脚本。
或者您可以在scrapy中打印带有标记的网址,然后使用python脚本捕获您scrapy的标准输出,然后将其解析以列出。
您可以通过将scrapy.commands部分添加到setup.py中的entry_points中来从外部库添加Scrapy命令。
from setuptools import setup, find_packages
setup(name='scrapy-mymodule',
entry_points={
'scrapy.commands': [
'my_command=my_scrapy_module.commands:MyCommand',
],
},
)
另请参阅Scrapy基本示例 。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.