簡體   English   中英

使用wget和cron下載網頁

[英]Using wget and cron to download webpages

好的,所以我知道我可以使用:

wget -r <website> > <file>

獲取網頁並保存。 我的問題是,我將如何使用cron和wget每小時或什至幾分鍾獲取一個網頁,然后將其保存到文件夾中,壓縮並壓縮,然后繼續添加以供以后查看。

我知道我可以手動執行此操作,我的目標是基本上每10到20分鍾下載一次,大約需要4個小時(不要花更長的時間),然后將所有內容附加到一個不錯的目錄中,然后對上述目錄進行zip壓縮以保存空間,並在當天晚些時候檢查它們。

編輯cron表

crontab -e

您可以添加這樣的條目

0,20,40 * * * *  wget URL ~/files/file-`date > '+%m%d%y%H%M'`.html &

每20分鍾下載/保存文件一次。

這里是有關crontab表達式的小參考 ,因此您可以調整值

要自動將文件TAR,crontab會有些復雜:

0,20,40 * * * *  wget URL > ~/files`date '+%m%d%y'`/file-`date '+%H%M'`.html &
* 12 * * *       tar cvf ~/archive-`date '+%m%d%y'`.tar ~/files`date '+%m%d%y'`

這將在中午完成,如果您想在mifnight進行,則更為復雜,因為您需要在前一天進行TAR,但是我認為您會想到的。

還是沒有cron:

for i in `seq 1 10`; do wget -r http://google.de -P $(date +%k_%M) && sleep 600; done

每10分鍾10次

編輯:像這樣使用zip

zip foo.zip file1 file2 allfile*.html

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM