簡體 English 中英

使用wget優化網頁抓取

[英]optimize web scraping using wget

原文 2011-02-23 00:16:35 6 1 bash/ web-scraping/ wget

我正在使用wget下載一個巨大的網頁列表（大約70,000）。我被迫在連續的wget之間進行大約2秒的睡眠。這需要花費大量的時間。像70天那樣。我想要什么要做的是使用代理，以便我可以顯着加快進程。我正在使用一個簡單的bash腳本進行此過程。任何建議和意見表示贊賞。

第一個建議是不要使用Bash或wget。 我會用Python和Beautiful Soup。 Wget並不是專為屏幕抓取而設計的。

其次，通過在每台機器上運行列表的一部分來研究將負載分散到多台機器上。

由於聽起來像帶寬是你的問題，你可以很容易地產生一些雲圖像並將你的腳本扔給那些家伙。

使用wget和regex進行數據抓取

[英]Data scraping with wget and regex

[英]Download a web page using wget and define a new filename

[英]Web scraping but not scraping changes

[英]using wget to download a directory

[英]Using Wget with buggy URL

[英]wget using an environment variable

[英]How to extract links behind a text tag of web page (using either curl,wget or userscript)

[英]Web Scraping with bash

[英]Arithmetic in web scraping in a shell

[英]Show real time wget output in a web page

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 使用wget和regex進行數據抓取使用 wget 下載網頁並定義新文件名 Web 刮不刮變化使用wget下載目錄將Wget與錯誤的URL結合使用 wget使用環境變量如何提取網頁文本標簽后面的鏈接（使用curl，wget或userscript） Web 用bash刮 web 中的算術在 shell 中刮擦在網頁中顯示實時wget輸出

相關標簽