如何在python中保存Selenium Web驅動程序的狀態？

Question

我正在嘗試抓取此網站： http : //www.infoempleo.com/ofertas-internacionales/ 。 我想選擇“過去15天”單選按鈕進行抓取。 所以我寫了這段代碼。

browser = webdriver.Chrome('C:\Users\Junaid\Downloads\chromedriver\chromedriver_win32\chromedriver.exe')
new_urls = deque(['http://www.infoempleo.com/ofertas-internacionales/'])

processed_urls = set()

while len(new_urls):

print "------ URL LIST -------"
print new_urls
print "-----------------------"
print
time.sleep(5)

url = new_urls.popleft()
processed_urls.add(url)

try:
    print "----------- Scraping ==>",url
    browser.get(url)
    elem = browser.find_elements_by_id("fechapublicacion")[-1]
    if ( elem.is_selected() ):
        print "already selected"
    else:
        elem.click()

    html = browser.page_source
except:
    print "-------- Failed to Scrape, Moving to Next"
    continue

soup = BeautifulSoup(html)

我已經能夠選擇單選按鈕並抓取第一頁。 最后有一個頁面列表，例如1、2、3。

移至下一頁時，將調用'browser.get(url)' ，將單選按鈕重置為“任何日期”，而不是“過去15天”。 這使代碼執行else語句else: elem.click()再次選擇單選按鈕，這將打開已被else: elem.click()的第一頁。

有沒有解決的辦法？ 幫助將不勝感激。

Answer 1

我找到了解決此問題的方法。 而不是將鏈接保存到列表中的下一頁。 我選擇nextPage按鈕/元素並使用.click() 。 這樣，無需再次調用browser.get(url) ，也不會重新加載頁面。

如何在python中保存Selenium Web驅動程序的狀態？

問題描述

1 個解決方案

解決方案1
0 2016-08-20 20:34:40

如何在python中保存Selenium Web驅動程序的狀態？

問題描述

1 個解決方案

解決方案1 0 2016-08-20 20:34:40

解決方案1
0 2016-08-20 20:34:40