![](/img/trans.png)
[英]Using Google App Engine to update files on Google Compute Engine
[英]Web Scraping with Google Compute Engine / App Engine
我編寫了一個Python腳本,該腳本使用Selenium從網站上抓取信息並將其存儲在csv文件中。 當我手動執行本地腳本時,它在我的本地計算機上運行良好,但現在我希望每小時自動運行一次腳本,持續幾個星期,以保護數據庫中的數據安全。 運行該腳本大約需要5-10分鍾。
我剛剛開始使用Google Cloud,看來有幾種使用Compute Engine或App Engine實施它的方法。 到目前為止,我一直使用到目前為止找到的所有三種方法(例如,讓計划的任務調用后端實例的URL並讓該實例啟動腳本)停留在某個點上。 我試圖:
考慮到這確實是不需要用戶前端的后端腳本,我很想聽到其他人推薦的最簡單,最合適的方法。
App Engine是可行的,但.remote
是您將Selenium的使用范圍限制為.remote
到http://crossbrowsertesting.com/之類的網站-可行,但雜亂無章。
我會使用Compute Engine -在任何Linux映像上使用cron
都很簡單,請參見例如http://www.thegeekstuff.com/2009/06/15-practical-crontab-examples/ !
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.