繁体   English   中英

更改python中的目录并通过scrapy spider提取.html文件名

[英]Change directory in python and extract .html filenames through scrapy spider

我写了一个蜘蛛,它爬过名为fid的文件夹,并提取所有子文件夹的名称作为链接。 现在的问题是,这些子文件夹中的每个子文件夹中都有一个html页面,我想提取所有这些html文件的名称并添加到当前的“ start_urls”中,以便我可以从所有这些html中抓取所需信息页面。 我努力了:

os.listdir()
glob.glob()

但是这些都不起作用。 请帮我解决一下这个。

一种stdlib方法是将os.walkfnmatch结合使用:

import fnmatch
import os

start_urls = []

for root, dirnames, filenames in os.walk('/start/dir/'):
    for filename in fnmatch.filter(filenames, '*.html'):
        start_urls.append(os.path.join(root, filename))

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM