繁体 English 中英

使用BeautifulSoup并使用不变的网址来抓取网站

[英]Scraping website using BeautifulSoup with unchanging URL

原文 2015-07-06 21:21:07 2 1 python/ web-scraping/ beautifulsoup

我之前曾进行过网络抓取，但在尝试从RottenTomatoes / search抓取时遇到了一些我从未见过的问题。 问题是双重的。 （我正在等待API请求“验证”，不幸的是，烂番茄没有所有电影的列表，嗯）

页面右下角有一个“更多电影”链接，必须单击该链接才能播放电影。 据我所知，Python没有这样的东西可以与之交互……或者是吗？

在此处输入图片说明

即使单击“更多电影”链接，当我尝试浏览/迭代所有页面时，顶部的URL也不会更改。 对于BeautifulSoup来说，这似乎是一个问题。

在此处输入图片说明

有什么建议/提示吗？

1 个解决方案

实际上，使用beautifulsoup不可能直接做到这一点，因为beautifulsoup处理静态网页。 您要抓取的内容是通过JavaScript添加到页面中的，而不是烘焙到HTML中的。

“更多电影”按钮调用了一个javascript函数，该函数可能会针对更多电影进行一些AJAX函数调用。

在某些情况下，您可以轻松访问“更多电影”：

有时数据已经存在于源中，但是被隐藏了。 JavaScript使此可见
javascript使用api加载其内容，然后可以在源代码中找到此API url，如果直接转到该链接，则可以找到所需内容。

但是，上述似乎与轮状番茄都不是一样。 我快速浏览了一下，也许您应该对其进行更彻底的调查。

我过去使用的解决方案是： Selenium 。 它有一个易于使用的python库，可让您自动执行浏览器行为。 这样，您可以在爬网时“自动”单击“加载更多”按钮。

但是请注意 ，这可能会很慢并且会浪费资源。 您可以无头运行它，这使其无法打开浏览器并节省一些资源。

使用 BeautifulSoup 使用不变的 URL 抓取多个页面

[英]Scraping multiple pages with an unchanging URL using BeautifulSoup

Web 用 BeautifulSoup 和不变的 URL 刮擦

[英]Web Scraping with BeautifulSoup and unchanging URL

使用python使用不变的URL刮取多个表的最佳资源

[英]Best resource for Scraping multiple tables with unchanging URL using python

使用 BeautifulSoup 抓取 url

[英]Scraping an url using BeautifulSoup

使用 Python 和 BeautifulSoup 抓取多个页面 - 网站 url 不起作用

[英]Scraping Multiple Page using Python and BeautifulSoup - Website url does not work

使用beautifulsoup抓取动态网站

[英]Scraping Dynamic website using beautifulsoup

使用 BeautifulSoup 抓取 OSHA 网站

[英]Scraping OSHA website using BeautifulSoup

在 Python 中使用不变的 URL 进行动态网页抓取

[英]Dynamic Web Scraping in Python with unchanging URL

使用 BeautifulSoup 抓取求职网站

[英]Scraping job hunting website using BeautifulSoup

使用 BeautifulSoup 抓取网站时出错

[英]Error while scraping website using BeautifulSoup

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用 BeautifulSoup 使用不变的 URL 抓取多个页面 Web 用 BeautifulSoup 和不变的 URL 刮擦使用python使用不变的URL刮取多个表的最佳资源使用 BeautifulSoup 抓取 url 使用 Python 和 BeautifulSoup 抓取多个页面 - 网站 url 不起作用使用beautifulsoup抓取动态网站使用 BeautifulSoup 抓取 OSHA 网站在 Python 中使用不变的 URL 进行动态网页抓取使用 BeautifulSoup 抓取求职网站使用 BeautifulSoup 抓取网站时出错

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM