繁体   English   中英

Python 网页抓取动态内容

[英]Python Web Scraping Dynamic Content

我一直在尝试抓取 kith.com 搜索结果,但我得到了骨架示例代码。 尝试使用scrapy、requests-html 和selenium,但我没有设法让它们工作。

现在我的代码是:

from requests_html import HTMLSession

session = HTMLSession()
r = session.get("https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created")

r.html.render()
print(r)

从我所见,render() 应该获得在浏览器中看到的 html 代码,但我仍然获得相同的“原始”代码。

PD:kith.com 是一家shopify 商店

Selenium适合这样的工作

from selenium import webdriver
from selenium.webdriver.firefox.options import Options

options = Options()
options.headless = True
driver = webdriver.Firefox(options=options)
driver.get('https://kith.com/pages/search-results-page?q=nike&tab=products&sort_by=created')


item_titles = driver.find_elements_by_class_name("snize-title")

print item_titles[0].text
#NIKE WMNS SHOX TL - NOVA WHITE / TEAM ORANGE / SPRUCE AURA

编辑:

如果您想捕获所有项目信息,带有snize-overhidden类的div元素将是您想要捕获的内容。 然后你可以遍历它们和它们的子元素

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM