簡體 English 中英

用Python中的java腳本抓取網頁

[英]Scraping a web page with java script in Python

原文 2011-03-17 12:26:35 3 3 javascript/ python/ python-3.x/ web-scraping

我正在 Windows 機器上使用 python 3.2 (newb)（盡管如果需要，我在虛擬機上有 ubuntu 10.04，但我更喜歡在 Windows 機器上工作）。

基本上我可以使用 http 模塊和 urlib 模塊來抓取網頁，但只有那些沒有 java 腳本 document.write("<div....") 等添加數據的在我獲得實際頁面時不在那里（意思是沒有真正的 ajax 腳本）。

為了處理這些類型的網站，我很確定我需要一個瀏覽器 java 腳本處理器來處理頁面並給我一個帶有最終結果的輸出，希望是一個 dict 或文本。

我試圖編譯 python-spider 猴子，但我知道它不適用於 Windows 並且它不適用於 python 3.x :-?

有什么建議？ 如果有人在此之前做過類似的事情，我將不勝感激！

3 個解決方案

我推薦 python 對 webkit 庫的綁定—— 這里是一個例子。 Webkit 是跨平台的，用於在 Chrome 和 Safari 中呈現網頁。 一個優秀的圖書館。

使用 Firebug 可以准確查看為獲取要顯示的數據而調用的內容（POST 或 GET url？）。 我懷疑有一個 AJAX 調用從服務器以 XML 或 JSON 形式檢索數據。 只需調用相同的 AJAX 調用，並自己解析數據。

或者，您可以下載 Selenium for Firefox，啟動 Selenium 服務器，通過 Selenium 下載頁面，並獲取 DOM 內容。 MozRepl 也能工作，但沒有那么多文檔，因為它沒有被廣泛使用。

通常使用 document.write 是因為您正在動態生成內容，通常是通過從服務器獲取數據。 你得到的是更多關於 javascript 而不是 HTML 的網絡應用程序。 “抓取”更像是下載 HTML 並處理它的問題，但這里沒有任何 HTML 可供下載。 您實際上是在嘗試抓取 GUI 程序。

大多數這些應用程序都有某種 API，通常返回 XML 或 JSON 數據，您可以使用它們。 如果沒有，您可能應該嘗試遠程控制真正的網絡瀏覽器。

web從python輸入的java腳本函數的結果中抓取數據

[英]web scraping the data from results of java script function with input by python

Python selenium 網頁抓取 - 凍結頁面

[英]Python selenium web scraping - freeze page

使用 Python 抓取網頁的 JavaScript 頁面

[英]Web-scraping JavaScript page with Python

具有保護功能的Python BeautifulSoup抓取網頁

[英]Python BeautifulSoup scraping web page that has protection

使用 python 和請求抓取 AJAX 網頁

[英]Scraping an AJAX web page using python and requests

Web使用Python使用Javascript抓取頁面

[英]Web scraping a page with Javascript using Python

Python抓取網頁導致javascript問題

[英]Python scraping web page causes javascript issue

使用Python從網頁上抓取Javascript文本

[英]Scraping Javascript text from web page using Python

從Java腳本將數組加載到網頁

[英]Loading an Array from Java Script into Web page

使用Java腳本進行網頁重定向

[英]Web Page Redirection Using Java Script

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 web從python輸入的java腳本函數的結果中抓取數據 Python selenium 網頁抓取 - 凍結頁面使用 Python 抓取網頁的 JavaScript 頁面具有保護功能的Python BeautifulSoup抓取網頁使用 python 和請求抓取 AJAX 網頁 Web使用Python使用Javascript抓取頁面 Python抓取網頁導致javascript問題使用Python從網頁上抓取Javascript文本從Java腳本將數組加載到網頁使用Java腳本進行網頁重定向

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM