簡體   English   中英

Selenium無法使用python抓取Shopee電子商務網站

[英]Selenium can not scrape Shopee e-commerce site using python

我無法在Shopee(電子商務網站)上拉低產品的價格。
我看了@dmitrybelyakov解決的問題(鏈接: 使用python抓取AJAX電子商務網站 )。

該解決方案幫助我獲得了產品的“名稱”和“ historical_sold”,但我無法獲得產品的價格。 我在Json字符串中找不到價格值。 因此,我嘗試使用硒通過xpath提取數據,但似乎失敗了。

電子商務網站的鏈接: https : //shopee.com.my/search? keyword =h370m

我的代碼:

import time

from selenium import webdriver

import pandas as pd

path = r'C:\Users\\admin\\Desktop\\chromedriver_win32\\Chromedriver'

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('headless')
chrome_options.add_argument('window-size=1200x600')

browserdriver = webdriver.Chrome(executable_path = path,options=chrome_options)
link='https://shopee.com.my/search?keyword=h370m'
browserdriver.get(link)
productprice='//*[@id="main"]/div/div[2]/div[2]/div/div/div/div[2]/div/div/div[2]/div[1]/div/a/div/div[2]/div[1]'
productprice_printout=browserdriver.find_element_by_xpath(productname).text
print(productprice_printout)

當我運行該代碼時,它顯示如下錯誤通知:

selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="main"]/div/div[2]/div[2]/div/div/div/div[2]/div/div/div[2]/div[1]/div/a/div/div[2]/div[1]"}

請幫助我在Shopee上獲得產品的價格!

您可以使用網站的請求和搜索API

import requests

headers = {
    'User-Agent': 'Mozilla/5',
    'Referer': 'https://shopee.com.my/search?keyword=h370m'
}

url = 'https://shopee.com.my/api/v2/search_items/?by=relevancy&keyword=h370m&limit=50&newest=0&order=desc&page_type=search'  
r = requests.get(url, headers = headers).json()

for item in r['items']:
    print(item['name'], ' ', item['price'])

如果要大致相同的比例:

for item in r['items']:
    print(item['name'], ' ', 'RM' + str(item['price']/100000))

要使用SeleniumPython提取Shopee上的產品價格,可以使用以下解決方案:

  • 代碼塊:

     from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('start-maximized') options.add_argument('disable-infobars') options.add_argument('--disable-extensions') browserdriver = webdriver.Chrome(chrome_options=options, executable_path=r'C:\\WebDrivers\\chromedriver.exe') browserdriver.get('https://shopee.com.my/search?keyword=h370m') WebDriverWait(browserdriver, 20).until(EC.element_to_be_clickable((By.XPATH, "//div[@class='shopee-modal__container']//button[text()='English']"))).click() print([my_element.text for my_element in WebDriverWait(browserdriver, 20).until(EC.visibility_of_all_elements_located((By.XPATH, "//span[text()='RM']//following::span[1]")))]) print("Program Ended") 
  • 控制台輸出:

     ['430.00', '385.00', '435.00', '409.00', '479.00', '439.00', '479.00', '439.00', '439.00', '403.20', '369.00', '420.00', '479.00', '465.00', '465.00'] Program Ended 

訪問網站時。 我遇到了這個彈出窗口https://gyazo.com/0a9cd82e2c9879a1c834a82cb15020bd 我猜,硒為什么無法檢測到您正在尋找的xpath,是因為此彈出窗口阻止了該元素。

在開始硒會話之后,立即嘗試以下操作:

popup=browserdriver.find_element_by_xpath('//*[@id="modal"]/div[1]/div[1]/div/div[3]/button[1]')
popup.click()

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM