繁体   English   中英

Node.js中的Webscraper,JS修改DOM

[英]Webscraper in node.js, JS modifies DOM

我正在尝试写一个网络爬虫,以获得一些销售线索。 问题在于,在现代网页设计中,大多数网站都使用某些JavaScript来修改DOM(通常使用React,Angular甚至只是一些jQuery)。 问题是,如果我通过request node.js包cheerio某些网站,并将html代码传递给cheerio ,那么我简直无法解析代码并获取我想要的信息。 相反,我只能看到一些React.js组件___ /。关于这个主题的任何资源都将有所帮助,谢谢。

因为请求包不会执行页面上的任何JavaScript。 它将按原样下载html。 如果要像浏览器一样查看实际页面,则必须创建一个JavaScript解析器,以您希望的状态执行所有javascript代码。

幸运的是,这里还有其他一些选择:

  • 您可以看一下您要抓取的网站上的开发人员工具,并尝试查找获取所需数据的xhr请求。 然后,您可以直接调用此网址。

  • 您可以使用PhantomJSCasperJS之类的无头浏览器抓取工具 这些程序包将尝试使用随附的javascript资源尽可能地修改下载的dom。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM