簡體   English   中英

使用python和selenium來抓取動態網頁

[英]Using python with selenium to scrape dynamic web pages

在網站上,有一對夫婦在標以1,2,3的頂部, 下一環節。 如果按下標有數字的鏈接,它會將某些數據動態加載到內容div 如果下一個被按下,它前進到帶標簽的4,5,6, 下一個和第4頁的數據的顯示的網頁。

我想從內容div抓取所有鏈接的數據(我不知道有多少,它一次只顯示3個和下一個

請舉例說明如何操作。 例如,請考慮網站www.cnet.com。

請指導我使用硒下載系列頁面並解析它們以自己處理美味的湯。

總體布局(未測試):

#!/usr/bin/env python
from contextlib import closing
from selenium.webdriver import Firefox # pip install selenium

url = "http://example.com"

# use firefox to get page with javascript generated content
with closing(Firefox()) as browser:
    n = 1
    while n < 10:
        browser.get(url) # load page
        link = browser.find_element_by_link_text(str(n))
        while link:
           browser.get(link.get_attribute("href")) # get individual 1,2,3,4 pages
           #### save(browser.page_source)
           browser.back() # return to page that has 1,2,3,next -like links
           n += 1
           link = browser.find_element_by_link_text(str(n))

        link = browser.find_element_by_link_text("next")
        if not link: break
        url = link.get_attribute("href")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM