繁体   English   中英

提交表单并加载数据后抓取网站

[英]Scrape website after form submit and data is loaded

我必须抓取一个我已经审查过的网站,我意识到我不需要提交任何表格。 我有获取数据所需的网址。 我正在使用NodeJsPhantom

我的问题来源与 session 或 cookies 相关(我认为)。

在我的 web 浏览器中,我可以在此链接中输入https://www.infosubvenciones.es/bdnstrans/GE/es/convocatorias ,点击带有文本“Procesar Consulta”的表单蓝色按钮。 下表将被填写。 在网络选项卡上的开发工具中,您可以看到带有类似于https://www.infosubvenciones.es/bdnstrans/busqueda?type=convs&_search=false&nd=1594848133517&rows=50&page=1&sidx=4&sord=desc的链接的 XHR 请求它在新选项卡中显示数据。 但是,如果您在其他 web 浏览器中打开该链接,您将获得 0 个结果。

这正是 NodeJs 和 Phantom 发生在我身上的事情,我不知道如何解决它。

If you want to give Scrapy a try, https://docs.scrapy.org/en/latest/topics/dynamic-content.html explains how to deal with this type of scenarios, and I would suggest reading it after completing the tutorial .

如果您使用其他抓取框架,该页面也很方便,因为没有太多特定于 Scrapy 的内容,而对于特定于 Python 的东西,我相信会有 JavaScript 对应物。

至于 Cheerio 和 Phantom,我对它们并不熟悉,但它们也很可能是可行的。

它适用于任何 web 客户端,只需知道如何使用该工具即可。 大部分工作涉及使用您的 web 浏览器工具来了解网站在下面的工作方式。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM