簡體   English   中英

更改python中的目錄並通過scrapy spider提取.html文件名

[英]Change directory in python and extract .html filenames through scrapy spider

我寫了一個蜘蛛,它爬過名為fid的文件夾,並提取所有子文件夾的名稱作為鏈接。 現在的問題是,這些子文件夾中的每個子文件夾中都有一個html頁面,我想提取所有這些html文件的名稱並添加到當前的“ start_urls”中,以便我可以從所有這些html中抓取所需信息頁面。 我努力了:

os.listdir()
glob.glob()

但是這些都不起作用。 請幫我解決一下這個。

一種stdlib方法是將os.walkfnmatch結合使用:

import fnmatch
import os

start_urls = []

for root, dirnames, filenames in os.walk('/start/dir/'):
    for filename in fnmatch.filter(filenames, '*.html'):
        start_urls.append(os.path.join(root, filename))

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM