Storm Crawler 开始抓取数据,但我似乎找不到数据的存储位置 我需要将这些数据保存到数据库中,以便我可以将数据连接到远程服务器并为其编制索引。 Storm爬虫好像主要关注Solr和Elastic的集成,。! 我只想将其数据存储到数据库中,这样我就可以使用任何站点搜索解决方案,如 Ty ...
Storm Crawler 开始抓取数据,但我似乎找不到数据的存储位置 我需要将这些数据保存到数据库中,以便我可以将数据连接到远程服务器并为其编制索引。 Storm爬虫好像主要关注Solr和Elastic的集成,。! 我只想将其数据存储到数据库中,这样我就可以使用任何站点搜索解决方案,如 Ty ...
我正在从源代码构建 SC 2.3-SNAPSHOT 并从原型生成项目。 然后我尝试运行示例 Flux 拓扑。 种子注入正确。 我可以在 ES 索引中看到所有这些,状态为 DISCOVERED。 我的问题是注入后似乎没有提取,所以我正在寻找要调查的内容的想法。 所有风暴组件看起来都很好,ES 也是如此 ...
我正在将我们的爬虫从 storm-crawler 1.14 更新到 2.2。 旧的 ESSeedInjector 的替代品是什么? ...
StormCrawler项目中bucket是什么意思? 我在项目的不同喷口中看到过桶。 例如,在基于 Solr 和 Sql 的 spouts 中,我们在 spouts 中使用了它。 ...
我想下载网页中的所有图像,并将它们提供给一些机器学习算法,以便对这些图像中的对象进行分类和提取。 我不想在状态集合中索引它们,但我想在 JsoupParser bolt 中提取它们,省略它们的地址并在拓扑中下载它们并将它们提供给一些计算机视觉算法。 在 StormCrawler 中可能吗? ...
此处的教程描述了如何设置 Stormcrawler 以与 phantomJS 一起运行,但 phantomJS 似乎无法获取和执行外链接 javascript 页面(例如,链接到即时页面上下文之外的 javascript 代码)。 然而,Chromedriver 似乎能够处理这种情况。 如何设置 ...
使用 ElasticSearch 原型版本 2.1.0 结合 Apache Storm 版本 2.2.0 和 OpenJDK 11 运行 StormCrawler 时,运行默认拓扑时出现以下错误: 这是什么意思,如何纠正? ...
我正在尝试爬取不同的网站(电子商务网站)并从每个网站的页面中提取特定信息(即产品价格、数量、发布日期等)。 我的问题是:如何配置解析,因为每个网站都有不同的 HTML 布局,这意味着我需要根据网站不同的相同项目的不同 Xpath? 我们可以在每个网站的拓扑中添加多个解析器螺栓吗? 如果是,我们如何为 ...
我正在尝试使用 Stormcrawler 来抓取我们网站上的一组页面,虽然它能够检索和索引页面的一些文本,但它没有捕获页面上的大量其他文本。 我已经安装了 Zookeeper、Apache Storm 和 Stormcrawler 使用此处提供的 Ansible 剧本(谢谢你的一百万。)在运行 Z3 ...
几年来,我们一直在使用带有 Elasticsearch 的 StormCrawler 来索引我们自己的网站。 我想知道我们是否可以调整搜索结果以使某些页面出现在结果的顶部? 例如,特定的搜索关键字会将特定页面带到结果的顶部,而不是在列表的下方。 HTML 页面中的关键字元数据字段似乎是这样做的地 ...
我想抓取一个站点,需要访问该站点才能查看页面。 我可以抓取访客页面,但如何抓取登录保护页面? 如果有人分享配置或跳过身份验证机制以使用风暴爬虫爬取页面的步骤,那就太好了。 非常感谢你提前。 ...
我们需要使用 StormCrawler 查找过期域列表。 我们得到过期域的 http_response_status 代码 200。 通过在我们的项目中,我们希望找到这些过期的域。 我怎样才能在 StormCrawler 项目中做到这一点? ...
我查看了 JsoupParserBolt 代码,在外链通过过滤器后添加了锚点。 如果我想通过文本/锚过滤掉链接,我必须扩展 JsoupParserBolt 并在链接通过过滤器之前将锚添加到元数据,这是真的吗? 有没有其他方法可以在不更改 java 代码的情况下过滤网址? 谢谢。 ...
我们的客户,给我们一个域列表并要求检查该列表中的重定向域。 域与此类似: www.domain.com , 域.com, subdomain1.domain.com, 子域1.子域2.域.com, StormCrawler 仅适用于 URL。 因此,如果我们想将域列表提供给爬虫,我们需要做一些预 ...
我在元数据中添加了一个字段,用于传输和保存在状态索引中。 该字段是一个字符串列表,其名称是input_keywords 。 在 Strom 集群中运行拓扑后,拓扑停止并显示以下日志: 我们对拓扑的每个组件都有不同的并行提示。 将input_keywords添加到元数据后,我们得到了错误。 错误的主要 ...
运行 es-crawler.flux 拓扑时出现以下错误。 我不确定我做错了什么。 我认为没有 yaml 错误? 更新了此处引用的 es-crawler.flux 文件* https://gist.github.com/jnioche/3f09c2e3f7da845181b733253bc806f1 ...
我们正在尝试使用 Stormcrawler 抓取我们知道域的每个站点的索引页面 - 礼貌地忽略 robots.txt 告诉我们不要这样做的任何地方。 我们有一个域数据库——其中大约 2.5 亿个——我们正在使用它作为开始。 我们的想法是每周抓取一次这些内容。 我们收到了来自服务器提供商的许多警告目前 ...
我们正在使用 StormCrawler 和 ElasticSearch 来抓取我们的网站。 我们按照文档将 ElasticSearch 与 StormCrawler 结合使用。 当我们在 Kibana 中搜索时,我们会返回 html 文件结果,但不会返回 pdf 文件内容或链接。 我们如何设置 St ...
我正在研究基于 StormCrawler 的项目。 我们的要求之一是找到重定向到另一个域的域。 在 StormCrawler 中,每个重定向的 URL 被认为是爬行的深度。 例如,对于一个有两个重定向步骤的域,我们需要使用 depth=2 进行爬取。 如何在不考虑爬虫深度的情况下解析所有重定向的域? ...
我正在开发基于 StormCrawler 项目的爬虫。 我需要根据优先级抓取 URL。 例如,我有两种优先级:HIGH、LOW。 我想在低 URL 之前尽快抓取高优先级 URL。 我需要一种在爬虫中处理上述问题的方法。 如何在 Apache Storm 和 StormCrawler 中处理此要求? ...