繁体 English 中英

Memory 关于使用 Apify Puppeteer 爬行的问题

[英]Memory issue on using Apify Puppeteer crawling

原文 2020-04-18 02:30:11 9 1 javascript/ python/ web-crawler/ puppeteer/ apify

我一直在研究 Python 项目，用户向程序提供一长串 URL（比如说 100 个 URL），程序将产生 100 个进程来执行包含爬虫代码的 JavaScript 代码（使用Apify.launchPuppeteer() ）。 此外，JavaScript 代码是基于 Apify Puppeteer 单页模板创建和修改的。

但是，100个进程同时调用爬取代码会消耗大量的memory，导致卡顿。 由于 Python 代码正在等待从 JavaScript 代码写入的文件中读取结果，因此 memory 代码不足会极大地影响性能并引发文件写入错误。 我想知道有什么方法可以优化 JavaScript 爬虫代码，或者是否有任何改进可以在双方进行？

一些编辑 --- 关于程序的额外信息：用户正在给出一个 URL（域）列表，并且程序想要递归地爬取域中的所有链接（例如，爬取域 github.com 中的所有超链接）。

1 个解决方案

完全没有必要启动 100 个单独的爬取进程。 Apify 提供了爬虫类，它们可以抓取一个列表或一个充满 URL 的队列。 它们还管理并发，因此运行保持在 CPU 和 memory 限制内。 我们通常会抓取数百万个 URL，而不会出现明显的 memory 或 CPU 问题。 我会使用PuppeteerCrawler 。

使用 Apify 和 Puppeteer 抓取 URL

[英]Scraping URLs using Apify and Puppeteer

配置puppeteer的chrome浏览器的语言还是使用Apify代理？

[英]Configure the language of puppeteer's chromium browser or using Apify proxy?

如何使用 Apify 和 Puppeteer 构建成功的网页抓取结果？

[英]How to structure the results of a successful web scrape using Apify and Puppeteer?

使用 Puppeteer 在循环中抓取多个 URL

[英]Crawling multiple URLs in a loop using Puppeteer

使用Puppeteer将结果爬网到JSON时重新启动无限

[英]Restart infinite when crawling results to JSON using Puppeteer

如何使用 apify sdk 使 puppeteer 无头运行？

[英]How to make puppeteer run headless with the apify sdk?

使用 Apify 进行网页抓取

[英]Web scraping using Apify

使用Apify抓取多个页面

[英]Crawl multiple pages using Apify

操纵er的人超过8000个子页面

[英]Puppeteer crawling above 8000 sub pages

NodeJS Puppeteer setDownloadBehavior问题

[英]NodeJS Puppeteer setDownloadBehavior issue

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 使用 Apify 和 Puppeteer 抓取 URL 配置puppeteer的chrome浏览器的语言还是使用Apify代理？如何使用 Apify 和 Puppeteer 构建成功的网页抓取结果？使用 Puppeteer 在循环中抓取多个 URL 使用Puppeteer将结果爬网到JSON时重新启动无限如何使用 apify sdk 使 puppeteer 无头运行？使用 Apify 进行网页抓取使用Apify抓取多个页面操纵er的人超过8000个子页面 NodeJS Puppeteer setDownloadBehavior问题

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM