[英]Using python with selenium to scrape dynamic web pages
在網站上,有一對夫婦在標以1,2,3的頂部, 下一環節。 如果按下標有數字的鏈接,它會將某些數據動態加載到內容div
。 如果下一個被按下,它前進到帶標簽的4,5,6, 下一個和第4頁的數據的顯示的網頁。
我想從內容div
抓取所有鏈接的數據(我不知道有多少,它一次只顯示3個和下一個 )
請舉例說明如何操作。 例如,請考慮網站www.cnet.com。
請指導我使用硒下載系列頁面並解析它們以自己處理美味的湯。
總體布局(未測試):
#!/usr/bin/env python
from contextlib import closing
from selenium.webdriver import Firefox # pip install selenium
url = "http://example.com"
# use firefox to get page with javascript generated content
with closing(Firefox()) as browser:
n = 1
while n < 10:
browser.get(url) # load page
link = browser.find_element_by_link_text(str(n))
while link:
browser.get(link.get_attribute("href")) # get individual 1,2,3,4 pages
#### save(browser.page_source)
browser.back() # return to page that has 1,2,3,next -like links
n += 1
link = browser.find_element_by_link_text(str(n))
link = browser.find_element_by_link_text("next")
if not link: break
url = link.get_attribute("href")
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.