繁体   English   中英

Web 爬虫使用 Cloud Dataflow

[英]Web Crawler using Cloud Dataflow

我想在一天内爬取 300 万个 web 页面。 Due to variety of web nature - HTML, pdf etc. I need to use Selenium, Playwright etc. I noticed to use Selenium one has to build a custom container using Google DataFlow

  1. 在 ParDo Fns 中使用 Selenium 是不是一个不错的选择? 我们可以跨多个实例使用 Selenium 的单个实例吗?
  2. 是同样适用的剧作家,我应该建立一个自定义图像吗?

您可以在 Python DoFn 中执行任何您可以在 Python 中执行的操作。 是的,我肯定会为这样的复杂依赖项使用自定义容器。

您可以通过在您的设置方法中初始化每个 DoFn 实例来共享 Selenium(或任何其他对象)的实例。 您可以通过使用模块级全局或类似shared的方式为整个进程共享它(注意它可能一次被多个线程访问)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM