使用 chromedriver 下载生成的 PDF

Question

您好，我是新的网页抓取。 我正在尝试使用 google web diver 点击链接下载蝙蝠侠电影脚本，但我遇到了一些错误。 我在某处读到，因为文件是生成的，而不是存储在数据库中，所以可能无法通过网络爬虫下载它。 谁能帮我？
我在 google colab 上有以下 python 脚本：

!pip install selenium
!apt-get update 
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
from selenium import webdriver

download_url = 'https://www.studiobinder.com/blog/batman-begins-script-screenplay-pdf-download'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
wd = webdriver.Chrome('chromedriver',chrome_options=chrome_options)
wd.get(download_url)
button = wd.find_element_by_tag_name("Download PDF")
button.click()
wd.close()

Answer 1

该网页上没有与Download PDF标签名称匹配的元素。
这就是为什么您的wd.find_element_by_tag_name("Download PDF")代码行明显抛出异常的原因。 如果不是， button将是一个没有click()方法的NoneType对象。

使用 chromedriver 下载生成的 PDF

问题描述

1 个解决方案

解决方案1
0 2021-07-20 08:40:36

使用 chromedriver 下载生成的 PDF

问题描述

1 个解决方案

解决方案1 0 2021-07-20 08:40:36

解决方案1
0 2021-07-20 08:40:36