簡體   English   中英

使用 chromedriver 下載生成的 PDF

[英]Using chromedriver to download a generated PDF

您好,我是新的網頁抓取。 我正在嘗試使用 google web diver 點擊鏈接下載蝙蝠俠電影腳本,但我遇到了一些錯誤。 我在某處讀到,因為文件是生成的,而不是存儲在數據庫中,所以可能無法通過網絡爬蟲下載它。 誰能幫我?
我在 google colab 上有以下 python 腳本:

!pip install selenium
!apt-get update 
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
from selenium import webdriver

download_url = 'https://www.studiobinder.com/blog/batman-begins-script-screenplay-pdf-download'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',chrome_options=chrome_options)
wd.get(download_url)
button = wd.find_element_by_tag_name("Download PDF")
button.click()
wd.close()

該網頁上沒有與Download PDF標簽名稱匹配的元素。
這就是為什么您的wd.find_element_by_tag_name("Download PDF")代碼行明顯拋出異常的原因。 如果不是, button將是一個沒有click()方法的NoneType對象。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM