繁体 English 中英

Node.js中的Webscraper，JS修改DOM

[英]Webscraper in node.js, JS modifies DOM

原文 2018-05-17 09:50:46 5 1 javascript/ html/ node.js/ parsing/ web-scraping

我正在尝试写一个网络爬虫，以获得一些销售线索。 问题在于，在现代网页设计中，大多数网站都使用某些JavaScript来修改DOM（通常使用React，Angular甚至只是一些jQuery）。 问题是，如果我通过request node.js包cheerio某些网站，并将html代码传递给cheerio ，那么我简直无法解析代码并获取我想要的信息。 相反，我只能看到一些React.js组件___ /。关于这个主题的任何资源都将有所帮助，谢谢。

1 个解决方案

因为请求包不会执行页面上的任何JavaScript。 它将按原样下载html。 如果要像浏览器一样查看实际页面，则必须创建一个JavaScript解析器，以您希望的状态执行所有javascript代码。

幸运的是，这里还有其他一些选择：

您可以看一下您要抓取的网站上的开发人员工具，并尝试查找获取所需数据的xhr请求。 然后，您可以直接调用此网址。
您可以使用PhantomJS或CasperJS之类的无头浏览器抓取工具。 这些程序包将尝试使用随附的javascript资源尽可能地修改下载的dom。

带有 Selenium 和 Node.js 的递归 Facebook 页面 Webscraper

[英]Recursive Facebook Page Webscraper with Selenium & Node.js

Node.js中的Webscraper返回带有异步和Promise的空数组

[英]Webscraper in Node.js returns empty array with async and promise

如何让 node.js 网络爬虫定期检查数据更新的端点？

[英]How to make a node.js webscraper periodically check an endpoint for data updates?

用于检查DOM元素的Node.js模块

[英]Node.js module that inspects DOM elements

将 HTML/DOM 与 node.js 连接

[英]Connecting HTML/DOM with node.js

Node.js从DOM中抓取日期时间

[英]Node.js Scrape datetime from a DOM

如何使用Node.js访问DOM？

[英]How to access DOM using Node.js?

node.js重定向和更改DOM中的元素

[英]node.js redirect and changing elements in DOM

使用node.js访问DOM

[英]Access to DOM using node.js

Node.js / Puppeteer - DOM节点列表到JS对象

[英]Node.js/Puppeteer - DOM NodeList to JS Object

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 带有 Selenium 和 Node.js 的递归 Facebook 页面 Webscraper Node.js中的Webscraper返回带有异步和Promise的空数组如何让 node.js 网络爬虫定期检查数据更新的端点？用于检查DOM元素的Node.js模块将 HTML/DOM 与 node.js 连接 Node.js从DOM中抓取日期时间如何使用Node.js访问DOM？ node.js重定向和更改DOM中的元素使用node.js访问DOM Node.js / Puppeteer - DOM节点列表到JS对象

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM