如何從將PDF嵌入HTML的URL下載PDF文件？

Question

我正在嘗試做的事情：我想抓取網頁以從網站上加載了javascript的PDF文件中獲取財務交易額。 示例網站： http : //www.nebraskadeedsonline.us/document.aspx?g5savSPtTDnumMn1bRBWoKqN6Gu65tBhDE9%2fVs5YdPg=

當我單擊“查看文檔”按鈕時，PDF文件會加載到瀏覽器的窗口中（我使用的是Google Chrome）。 我可以右鍵單擊PDF並將其保存到計算機中，但是我想通過讓Selenium（或類似軟件包）下載該文件然后對其進行OCR處理來自動化該過程。

如果可以保存它，則可以執行OCR部分（我希望如此）。 我只是無法保存文件。

在這里，我找到並修改了以下代碼：

def download_pdf(lnk):

    from selenium import webdriver
    from time import sleep

    options = webdriver.ChromeOptions()

    download_folder = "C:\\Users\\rickc\\Documents\\Scraper2\\screenshots\\"

    profile = {"plugins.plugins_list": [{"enabled": False,
                                         "name": "Chrome PDF Viewer"}],
               "download.default_directory": download_folder,
               "download.extensions_to_open": ""}

    options.add_experimental_option("prefs", profile)

    print("Downloading file from link: {}".format(lnk))

    driver = webdriver.Chrome(chrome_options = options)
    driver.get(lnk)

    filename = lnk.split("/")[3].split(".aspx")[0]+".pdf"
    print("File: {}".format(filename))

    print("Status: Download Complete.")
    print("Folder: {}".format(download_folder))

    driver.close()

download_pdf('http://www.nebraskadeedsonline.us/document.aspx?g5savSPtTDnumMn1bRBWoKqN6Gu65tBhDE9fVs5YdPg=')

但這不起作用。 我的大學教授曾經說過：“如果您在這個問題上花了兩個多小時而又沒有取得進展，那么該是時候在其他地方尋求幫助了。” 因此，我正在尋求幫助。

其他信息：上面的鏈接將帶您進入網頁，但只有在單擊“查看文檔”按鈕后才能訪問PDF文檔。 我已經嘗試過使用Selenium的webdriver.find_element_by_ID('btnDocument').click()來使事情發生，它只是加載頁面，但對此不做任何事情。

Answer 1

您可以使用requests和BeautifulSoup庫下載pdf。 在下面的代碼中，將/Users/../aaa.pdf替換為下載文檔的完整路徑：

import requests
from bs4 import BeautifulSoup

url = 'http://www.nebraskadeedsonline.us/document.aspx?g5savSPtTDnumMn1bRBWoKqN6Gu65tBhDE9%2fVs5YdPg='

response = requests.post(url)
page = BeautifulSoup(response.text, "html.parser")

VIEWSTATE = page.select_one("#__VIEWSTATE").attrs["value"]
VIEWSTATEGENERATOR = page.select_one("#__VIEWSTATEGENERATOR").attrs["value"]
EVENTVALIDATION = page.select_one("#__EVENTVALIDATION").attrs["value"]
btnDocument = page.select_one("[name=btnDocument]").attrs["value"]

data = {
  '__VIEWSTATE': VIEWSTATE,
  '__VIEWSTATEGENERATOR': VIEWSTATEGENERATOR,
  '__EVENTVALIDATION': EVENTVALIDATION,
  'btnDocument': btnDocument
}
response = requests.post(url, data=data)
with open('/Users/../aaa.pdf', 'wb') as f:
    f.write(response.content)

如何從將PDF嵌入HTML的URL下載PDF文件？

問題描述

1 個解決方案

解決方案1
2 已采納 2019-02-20 21:08:12

如何從將PDF嵌入HTML的URL下載PDF文件？

問題描述

1 個解決方案

解決方案1 2 已采納 2019-02-20 21:08:12

解決方案1
2 已采納 2019-02-20 21:08:12