使用python和selenium來抓取動態網頁

Question

在網站上，有一對夫婦在標以1，2，3的頂部， 下一環節。 如果按下標有數字的鏈接，它會將某些數據動態加載到內容div 。 如果下一個被按下，它前進到帶標簽的4，5，6， 下一個和第4頁的數據的顯示的網頁。

我想從內容div抓取所有鏈接的數據（我不知道有多少，它一次只顯示3個和下一個 ）

請舉例說明如何操作。 例如，請考慮網站www.cnet.com。

請指導我使用硒下載系列頁面並解析它們以自己處理美味的湯。

Answer 1

總體布局（未測試）：

#!/usr/bin/env python
from contextlib import closing
from selenium.webdriver import Firefox # pip install selenium

url = "http://example.com"

# use firefox to get page with javascript generated content
with closing(Firefox()) as browser:
    n = 1
    while n < 10:
        browser.get(url) # load page
        link = browser.find_element_by_link_text(str(n))
        while link:
           browser.get(link.get_attribute("href")) # get individual 1,2,3,4 pages
           #### save(browser.page_source)
           browser.back() # return to page that has 1,2,3,next -like links
           n += 1
           link = browser.find_element_by_link_text(str(n))

        link = browser.find_element_by_link_text("next")
        if not link: break
        url = link.get_attribute("href")

使用python和selenium來抓取動態網頁

問題描述

1 個解決方案

解決方案1
10 已采納 2011-12-28 05:09:55

使用python和selenium來抓取動態網頁

問題描述

1 個解決方案

解決方案1 10 已采納 2011-12-28 05:09:55

解決方案1
10 已采納 2011-12-28 05:09:55