繁体 English 中英

使用wget优化网页抓取

[英]optimize web scraping using wget

原文 2011-02-23 00:16:35 6 1 bash/ web-scraping/ wget

我正在使用wget下载一个巨大的网页列表（大约70,000）。我被迫在连续的wget之间进行大约2秒的睡眠。这需要花费大量的时间。像70天那样。我想要什么要做的是使用代理，以便我可以显着加快进程。我正在使用一个简单的bash脚本进行此过程。任何建议和意见表示赞赏。

第一个建议是不要使用Bash或wget。 我会用Python和Beautiful Soup。 Wget并不是专为屏幕抓取而设计的。

其次，通过在每台机器上运行列表的一部分来研究将负载分散到多台机器上。

由于听起来像带宽是你的问题，你可以很容易地产生一些云图像并将你的脚本扔给那些家伙。

使用wget和regex进行数据抓取

[英]Data scraping with wget and regex

[英]Download a web page using wget and define a new filename

[英]Web scraping but not scraping changes

[英]using wget to download a directory

[英]Using Wget with buggy URL

[英]wget using an environment variable

[英]How to extract links behind a text tag of web page (using either curl,wget or userscript)

[英]Web Scraping with bash

[英]Arithmetic in web scraping in a shell

[英]Show real time wget output in a web page

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用wget和regex进行数据抓取使用 wget 下载网页并定义新文件名 Web 刮不刮变化使用wget下载目录将Wget与错误的URL结合使用 wget使用环境变量如何提取网页文本标签后面的链接（使用curl，wget或userscript） Web 用bash刮 web 中的算术在 shell 中刮擦在网页中显示实时wget输出

相关标签