[英]Change directory in python and extract .html filenames through scrapy spider
我寫了一個蜘蛛,它爬過名為fid的文件夾,並提取所有子文件夾的名稱作為鏈接。 現在的問題是,這些子文件夾中的每個子文件夾中都有一個html頁面,我想提取所有這些html文件的名稱並添加到當前的“ start_urls”中,以便我可以從所有這些html中抓取所需信息頁面。 我努力了:
os.listdir()
glob.glob()
但是這些都不起作用。 請幫我解決一下這個。
一種stdlib方法是將os.walk
與fnmatch
結合使用:
import fnmatch
import os
start_urls = []
for root, dirnames, filenames in os.walk('/start/dir/'):
for filename in fnmatch.filter(filenames, '*.html'):
start_urls.append(os.path.join(root, filename))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.