[英]optimize web scraping using wget
我正在使用wget下载一个巨大的网页列表(大约70,000)。我被迫在连续的wget之间进行大约2秒的睡眠。这需要花费大量的时间。像70天那样。我想要什么要做的是使用代理,以便我可以显着加快进程。我正在使用一个简单的bash脚本进行此过程。任何建议和意见表示赞赏。
第一个建议是不要使用Bash或wget。 我会用Python和Beautiful Soup。 Wget并不是专为屏幕抓取而设计的。
其次,通过在每台机器上运行列表的一部分来研究将负载分散到多台机器上。
由于听起来像带宽是你的问题,你可以很容易地产生一些云图像并将你的脚本扔给那些家伙。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.