繁体   English   中英

创建一个wget Bash脚本

[英]Creating a wget Bash Script

我创建了一个wget脚本来下载和镜像站点 URL来自文本文件。 我几乎创建了整个脚本,但是现在我需要使其完美。 每天要使用3个小时,因此应该在最后结束的地方继续使用。
我在下面提供了我的脚本,如果有人发现它有用,可以使用它,但请在脚本中保留我的名字。

脚本问题:

脚本无法通过引用父目录中的文件来正确引用其链接 ,请告诉我。
即使使用--continue参数,脚本在中间中止后也不会恢复

#       Created by Salik Sadruddin Merani
#       email: ssm14293@gmail.com
#       site: http://www.dragotech-innovations.tk
clear
echo '  Created by: Salik Sadruddin Merani'
echo '  email: ssm14293@gmail.com'
echo '  site: http://www.dragotech-innovations.tk'
echo
echo '  Info:'
echo '  This script will use the URLs provided in the File "urls.txt"'
echo '  Info: Logs will be saved in logfile.txt'
echo '  URLs are taken from the urls.txt file'
#
url=`< ./urls.txt`
useragent='Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/25.0'
echo '  Mozilla Firefox User agent will be used'

cred='log=abc@123.org&pwd=abc123&wp-submit=Log In&redirect_to=http://abc@123.org/wp-admin/&testcookie=1'
echo '  Loaded Credentails'
echo '  Logging In'
wget --save-cookies cookies.txt --post-data ${cred} --keep-session-cookies http://members.ebenpagan.com/wp-login.php --delete-after

OIFS=$IFS
IFS=','
arr2=$url
for x in $arr2
do
    echo '      Loading Cookies'
    wget --spider --load-cookies cookies.txt --keep-session-cookies --mirror --convert-links --page-requisites ${x} -U ${useragent} -np --adjust-extension --continue -e robots=no --span-hosts --no-parent -o log-file-$x.txt
done
IFS=$OIFS

问候

wget中的--continue标志将尝试恢复当前目录中单个文件的下载。 有关更多信息,请参考wget的手册页。 它很详细。

您需要从脚本先前停止的位置继续进行镜像/下载。

因此,与其说是wget中的某些设置,不如说是对脚本的修改。 我可以建议一种方法,但是请注意,您也可以使用其他方法。

修改URLs.txt文件以使每行具有一个URL。 然后参考这个伪代码-

  1. 从文件获取URL
  2. 如果(网址以令牌#DONE结尾),请继续
  3. 否则,wget命令
  4. 将令牌#DONE附加到文件中url的末尾

这样,您将在下次运行脚本时知道从哪个URL继续。 所有末尾带有“ #DONE”的URL将被跳过,其余的将被下载。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM