硒抓取javascript

Question

我计划制作一个从许多网站上抓取大量每日更新的 URL (JavaScript) 的网站。 我做了一些研究，发现 selenium，已经做了一些代码来从网站中提取 URL

from selenium import webdriver
chrome_path = r"C:\Users\hessien\Desktop\chromedriver_win32\chromedriver.exe"
driver = webdriver.Chrome(chrome_path)
driver.get("http://example.com")
driver.find_element_by_xpath("""//*[@id="header"]/div/div[2]/div[3]/ul/li/label/a""").click()
element = driver.find_element_by_xpath("""//*[@id="s"]""")
element.send_keys("example")
driver.find_element_by_xpath("""//*[@id="searchform"]/button/span""").click()
driver.find_element_by_xpath("""//*[@id="contenedor"]/div/div[2]/div[1]/div[2]/article/div[2]/div[1]/a""").click()
driver.find_element_by_xpath("""//*[@id="playex"]/div[1]""").click()
elem = driver.find_element_by_xpath("""//*[@id="mediaplayer_media"]/video""").get_attribute("src");
print elem

但经过一些搜索，我发现 selenium 主要用作测试框架，而不是用于抓取和爬行！..我的问题是 selenium 可以完成这项工作吗？ 如果是，如何在 HTML 按钮中执行 python 代码？ 我也在使用 Django。 如果没有，你能推荐任何可以完成任务的东西吗？

Answer 1

如果你真的想制作一个scraper，我推荐你使用 Beautiful Soup，它是一个 Python 库，用于从 HTML 和 XML 文件中提取数据。 您可以将 python 脚本与 django 集成，单击即可触发。 以下是链接。

https://pypi.python.org/pypi/beautifulsoup4

硒抓取javascript

问题描述

1 个解决方案

解决方案1
0 2017-02-01 17:50:44

硒抓取javascript

问题描述

1 个解决方案

解决方案1 0 2017-02-01 17:50:44

解决方案1
0 2017-02-01 17:50:44