簡體   English   中英

使用wget優化網頁抓取

[英]optimize web scraping using wget

我正在使用wget下載一個巨大的網頁列表(大約70,000)。我被迫在連續的wget之間進行大約2秒的睡眠。這需要花費大量的時間。像70天那樣。我想要什么要做的是使用代理,以便我可以顯着加快進程。我正在使用一個簡單的bash腳本進行此過程。任何建議和意見表示贊賞。

第一個建議是不要使用Bash或wget。 我會用Python和Beautiful Soup。 Wget並不是專為屏幕抓取而設計的。

其次,通過在每台機器上運行列表的一部分來研究將負載分散到多台機器上。

由於聽起來像帶寬是你的問題,你可以很容易地產生一些雲圖像並將你的腳本扔給那些家伙。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM