簡體   English   中英

python selenium chrome headless中的文件下載路徑設置不適用

[英]The file download path setting in python selenium chrome headless does not apply

我是韓國的Web開發人員。 我們最近一直在使用此Python來實現網站抓取功能。

我是Python的新手。 我們在兩天內尋找了很多東西,然后應用了它們。 當前的問題包括:

  1. 單擊Excel下載按鈕以顯示一個新窗口(彈出)。
  2. 單擊新窗口中的下載,將在父窗口中打開一個新選項卡,並在下載開始后立即關閉所有瀏覽器。
  3. 下載頁面是PHP,數據通過標題設置為Excel,以便瀏覽器自動識別下載。
  4. 問題是瀏覽器已關閉,下載未完成,文件也未保存。

我使用了以下源代碼。

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

chrome_driver = './browser_driver/chromedriver'

options = webdriver.ChromeOptions()
options.add_argument('--headless')

download_path = r"C:\Users\files"

timeout = 10

driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=options)
driver.command_executor._commands["send_command"] = (
    "POST", '/session/$sessionId/chromium/send_command')
params = {'cmd': 'Page.setDownloadBehavior',
          'params': {'behavior': 'allow', 'downloadPath': download_path}}
command_result = driver.execute("send_command", params)
driver.get("site_url")

#download new window
down_xls_btn = driver.find_element_by_id("download")
down_xls_btn.click()

driver.switch_to_window(driver.window_handles[1])

#download start
down_xls_btn = driver.find_element_by_id("download2")
down_xls_btn.click()

在沒有無頭模式的測試過程中,一旦開始下載,瀏覽器本身就會關閉。 無頭模式不會下載文件本身。

注釋涉及到DevTools源Page.setDownloadBehavior刪除關閉,但不會更改下載路徑。

我不會英語,所以我將其翻譯成翻譯。 太難了,因為我是一個初學者。 請幫我。


我剛剛使用Firefox Web瀏覽器對其進行了測試。 Firefox與Chrome不同,它以新的形式而不是新的選項卡顯示下載窗口,該選項卡運行自動下載並自動關閉窗口。

這里有個問題。 實際上,即使在Firefox中以無頭模式下載也很成功。 但是,關閉新窗口時,無法識別先前定義的driver.get()的驅動程序。

import os
import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.firefox.options import Options
import json

fp = webdriver.FirefoxProfile()
fp.set_preference("browser.download.folderList", 2)
fp.set_preference("browser.download.manager.showWhenStarting", False)
fp.set_preference("browser.download.dir",download_path)
fp.set_preference("browser.helperApps.neverAsk.saveToDisk","application/octet-stream, application/vnd.ms-excel")
fp.set_preference("dom.webnotifications.serviceworker.enabled",False)
fp.set_preference("dom.webnotifications.enabled",False)

timeout = 10 
driver = webdriver.Firefox(executable_path=geckodriver, firefox_options=options, firefox_profile=fp)
driver.get(siteurl)

down_btn = driver.find_element_by_xpath('//*[@id="searchform"]/div/div[1]/div[6]/div/a[2]')
    down_btn.click()

#down_btn Click to display a new window
#Automatic download starts in new window and closes window automatically

driver.switch_to_window(driver.window_handles[0])

#window_handles Select the main window and output the table to output an error.
print(driver.title)

也許這與我們之前問過的問題相同。 由於目前在Firefox中下載成功,因此我們編寫了代碼來定義新的驅動程序並進行后處理。

有誰解決了這個問題?

我遇到了同樣的問題,並且設法解決了這一問題:

切換到另一個窗口后,應再次啟用下載:

  1. 將此代碼隔離為一個函數
def enable_download_in_headless_chrome(driver, download_path):
    driver.command_executor._commands["send_command"] = ("POST", '/session/$sessionId/chromium/send_command')
    params = {
        'cmd': 'Page.setDownloadBehavior',
        'params': {'behavior': 'allow', 'downloadPath': download_path}
    }

    driver.execute("send_command", params)
  1. 每當您需要從另一個窗口下載文件時,都可以調用它。

您的代碼將是:

import time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException

chrome_driver = './browser_driver/chromedriver'

options = webdriver.ChromeOptions()
options.add_argument('--headless')

download_path = r"C:\Users\files"

timeout = 10

driver = webdriver.Chrome(executable_path=chrome_driver, chrome_options=options)
enable_download_in_headless_chrome(driver, download_path)

driver.get("site_url")

#download new window
down_xls_btn = driver.find_element_by_id("download")
down_xls_btn.click()

driver.switch_to_window(driver.window_handles[1])
enable_download_in_headless_chrome(driver, download_path)  # THIS IS THE MISSING AND SUPER IMPORTANT PART

#download start
down_xls_btn = driver.find_element_by_id("download2")
down_xls_btn.click()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM