使用 Selenium 加載整個頁面后，我的代碼在前 100 個項目后停止抓取？

Question

我想在我的個人 IMDb 觀看列表中獲取所有電影/系列的列表。 我正在使用 selenium 單擊加載更多按鈕，以便所有內容都顯示在 html 代碼中。 但是，當我嘗試抓取該數據時，只會顯示前 100 部電影。 'page3' 之后的任何內容都不會顯示。

下圖顯示了 html 中表示第 3 頁的部分：

在這張照片中，顯示了第 3 頁的 html 部分

單擊帶有 selenium 的加載按鈕后，所有電影都會顯示在 chrome 彈出窗口中。 但是，只有前 100/138 被打印到我的控制台。

這是 URL： https://www.imdb.com/user/ur130279232/watchlist

這是我當前的代碼：

    URL = "https://www.imdb.com/user/ur130279232/watchlist"
    
    driver = webdriver.Chrome()
    wait = WebDriverWait(driver,20)
    
    driver.get(URL)
 
while True:
    try:
        watchlist = driver.find_element_by_xpath("//div[@class='lister-list mode-detail']")
        watchlistHTML = watchlist.get_attribute('innerHTML')
        loadMoreButton = driver.find_element_by_xpath("//button[@class='load-more']")
        soup = BeautifulSoup(watchlistHTML, 'html.parser')
        content = soup.find_all('h3', class_ ='lister-item-header')
        #pdb.set_trace()
        print('length: ',len(content))
        for elem in content:
            print(elem.find('a').contents[0])

        time.sleep(2)
        loadMoreButton.click()
        time.sleep(5)
    except Exception as e:
        print(e)
        break

即使在單擊加載更多按鈕后，“lister-list mode-detail”仍包含音樂之聲之前的所有內容？

Answer 1

Rest 的數據通過執行 HTTP GET 返回（向下滾動並點擊加載更多）

https://www.imdb.com/title/data?ids=tt0144117,tt0116996,tt0106179,tt0118589,tt11252090,tt13132030,tt6083778,tt0106611,tt0115685,tt1959563,tt8385148,tt0118971,tt0340855,tt8629748,tt13932270,tt11185940,tt5580390, tt4975722,tt2024544,tt1024648,tt1504320,tt1010048,tt0169547,tt0138097,tt0112573,tt0109830,tt0108052,tt0097239,tt0079417,tt0071562,tt0068646,tt0070735,tt0067116,tt0059742,tt0107207,tt0097937&tracking_tag=&pageId=ls089853956&pageType=list&subpageType=watchlist

Answer 2

如果您可以訪問 HTTP GET，@balderman 提到的內容將起作用。

最主要的是標題的加載有延遲，並且在加載較早的標題之前不會加載較晚的標題。 我不知道它們是否只在您位於正確的區域時才加載，但是繞過它的一種笨拙的方法是以編程方式滾動頁面並讓它加載。

使用 Selenium 加載整個頁面后，我的代碼在前 100 個項目后停止抓取？

問題描述

2 個解決方案

解決方案1
0 2021-08-19 19:33:24

解決方案2
0 2021-08-20 05:45:06

使用 Selenium 加載整個頁面后，我的代碼在前 100 個項目后停止抓取？

問題描述

2 個解決方案

解決方案1 0 2021-08-19 19:33:24

解決方案2 0 2021-08-20 05:45:06

解決方案1
0 2021-08-19 19:33:24

解決方案2
0 2021-08-20 05:45:06