簡體   English   中英

將動態網頁轉儲到文件中?

[英]Dumping a dynamic web page to file?

我是C ++程序員,並且是Web開發的新手。 我需要弄清楚如何才能每秒將動態第三方網站的html登錄/轉儲到計算機上的靜態html文件中? 動態網頁每秒刷新一次,並用最新價格信息更新html表。 我希望此表(或整個html頁)的靜態快照每秒保存到磁盤。 這樣,我可以使用自己的程序解析文件,並將更新的價格信息添加到數據庫中。 我該怎么做呢? 如果我不能這樣做,是否有辦法在發布/獲取消息和回復動態網頁發送的消息前夕滴下(並記錄)?

查看cURL庫 我相信,從網站上抓取內容並進行處理/業務邏輯,然后插入或更新數據庫將是最有效的方法,而不是將文件內容保存到磁盤。

另外,假設您啟用了allow_url_fopen, file_get_contents()可以很好地工作。

使用Selenium Webdriver會很容易。 您可以使用Selenium來創建一個具有getPageSource方法的瀏覽器對象,該方法可以從頁面中提取整個HTML,但是似乎Selenium沒有任何C ++綁定。 如果使用Ruby,Python或Java作為應用程序的一部分很方便,只是為了打開瀏覽器或無頭瀏覽器並提取數據,則應該能夠設置Web服務或本地文件以進行傳輸該數據返回到您的C ++應用程序。

C ++的Web自動化解決了沒有Selenium C ++綁定的挑戰

或者,您也可以為Selenium編寫自己的C ++綁定(可能更困難)

但是,如果Dan的上述答案之一可行,則只需提取HTML,就可能不需要Selenium。

Hej其他人。

每秒都要運行一次那里的頁面以記錄那里的數據,因此您可以擁有那里的價格的更新視圖,為什么不直接調用那里的Web服務(那里是ajax調用)

l

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM