Python 网页抓取动态内容

Question

我一直在尝试抓取 kith.com 搜索结果，但我得到了骨架示例代码。 尝试使用scrapy、requests-html 和selenium，但我没有设法让它们工作。

现在我的代码是：

from requests_html import HTMLSession

session = HTMLSession()
r = session.get("https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created")

r.html.render()
print(r)

从我所见，render() 应该获得在浏览器中看到的 html 代码，但我仍然获得相同的“原始”代码。

PD：kith.com 是一家shopify 商店

Answer 1

Selenium适合这样的工作

from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.headless = True
driver = webdriver.Firefox(options=options)
driver.get('https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created')


item_titles = driver.find_elements_by_class_name("snize-title")

print item_titles[0].text
#NIKE WMNS SHOX TL - NOVA WHITE / TEAM ORANGE / SPRUCE AURA

编辑：

如果您想捕获所有项目信息，带有snize-overhidden类的div元素将是您想要捕获的内容。 然后你可以遍历它们和它们的子元素

Python 网页抓取动态内容

问题描述

1 个解决方案

解决方案1
2 已采纳 2020-02-07 23:47:10

Python 网页抓取动态内容

问题描述

1 个解决方案

解决方案1 2 已采纳 2020-02-07 23:47:10

解决方案1
2 已采纳 2020-02-07 23:47:10