簡體   English   中英

如何刮取HTTPS javascript網頁

[英]How to scrape HTTPS javascript web pages

我試圖通過在線目錄監控日常價格。 該站點使用HTTPS並使用javascript生成目錄頁面。 我如何與網站連接並使其生成我需要的頁面?

我已經在其他可以輕松訪問HTML的網站上完成了這項工作,生成后解析HTML沒有問題。

我只懂Python和Java。

提前致謝。

看看HTMLUnit - 一個可以完全由代碼控制的無頭Java瀏覽器。 這里可以看到一個簡單的例子: http//htmlunit.sourceforge.net/gettingStarted.html

(強制警告:通過屏幕抓取網站,你可能會破壞它的ToS,並可能打開訴訟;檢查你是否被允許在你開始之前這樣做)

如果他們創建了一個與他們的JavaScript接口的Web API,您可能可以直接刪除它,而不是嘗試使用HTML路由。

如果他們對它進行了模糊處理或者由於某些其他原因而無法使用該選項,那么您基本上需要一個Web瀏覽器來評估JavaScript,然后廢棄瀏覽器的DOM。 也許寫一個瀏覽器插件?

我使用webkit通過它的python綁定來抓取javascript內容。 例如,見這里

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM