簡體 English 中英

將動態網頁轉儲到文件中？

[英]Dumping a dynamic web page to file?

原文 2011-10-02 17:12:34 3 3 php/ javascript/ html

我是C ++程序員，並且是Web開發的新手。 我需要弄清楚如何才能每秒將動態第三方網站的html登錄/轉儲到計算機上的靜態html文件中？ 動態網頁每秒刷新一次，並用最新價格信息更新html表。 我希望此表（或整個html頁）的靜態快照每秒保存到磁盤。 這樣，我可以使用自己的程序解析文件，並將更新的價格信息添加到數據庫中。 我該怎么做呢？ 如果我不能這樣做，是否有辦法在發布/獲取消息和回復動態網頁發送的消息前夕滴下（並記錄）？

3 個解決方案

查看cURL庫。 我相信，從網站上抓取內容並進行處理/業務邏輯，然后插入或更新數據庫將是最有效的方法，而不是將文件內容保存到磁盤。

另外，假設您啟用了allow_url_fopen， file_get_contents（）可以很好地工作。

使用Selenium Webdriver會很容易。 您可以使用Selenium來創建一個具有getPageSource方法的瀏覽器對象，該方法可以從頁面中提取整個HTML，但是似乎Selenium沒有任何C ++綁定。 如果使用Ruby，Python或Java作為應用程序的一部分很方便，只是為了打開瀏覽器或無頭瀏覽器並提取數據，則應該能夠設置Web服務或本地文件以進行傳輸該數據返回到您的C ++應用程序。

C ++的Web自動化解決了沒有Selenium C ++綁定的挑戰

或者，您也可以為Selenium編寫自己的C ++綁定（可能更困難）

但是，如果Dan的上述答案之一可行，則只需提取HTML，就可能不需要Selenium。

Hej其他人。

每秒都要運行一次那里的頁面以記錄那里的數據，因此您可以擁有那里的價格的更新視圖，為什么不直接調用那里的Web服務（那里是ajax調用）