[英]Puppeteer Crawler large scale crawling
我們正在使用 Puppeteer 編寫 web 爬蟲。 我們編寫的 puppeteer 爬蟲程序對於頁面數約為 1,500 - 5,000 的網站執行和爬取網站 URL 沒有問題。但是,當我們為超過 5,000 個的網站執行時,如果由於某些錯誤或崩潰而在中間中斷,則需要重新開始。 如果發生任何錯誤,如何使基於 Puppeteer 的 web 爬蟲從最后一次爬取的 state 恢復? Puppeteer 中有內置函數嗎? 如何讓這個 puppeteer headless chrome web 爬過隊列系統?
我自己用 Puppeteer.js 搭建了爬蟲來爬取 Google 和 Bing,苦苦掙扎了很久。 每次瀏覽器崩潰或頁面調用掛起時,我強烈建議使用永遠監視器重新啟動爬蟲。 其次,hilly 建議在頁面超過 60 秒沒有響應時添加page.relaod
(使用 promise 進行)。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.