cost 544 ms
我开始使用Storm Crawler web 进行爬取,但我不知道爬取结果go 到哪里去了? 我没有使用 Solr 或 Elastic Search - I started web crawling using Storm Crawler but I do not know where crawled results go to? Im not using Solr or Elastic Search

Storm Crawler 开始抓取数据,但我似乎找不到数据的存储位置 我需要将这些数据保存到数据库中,以便我可以将数据连接到远程服务器并为其编制索引。 Storm爬虫好像主要关注Solr和Elastic的集成,。! 我只想将其数据存储到数据库中,这样我就可以使用任何站点搜索解决方案,如 Ty ...

使用 storm-crawler 2.3-SNAPSHOT 运行示例拓扑时出现问题 - Problem running example topology with storm-crawler 2.3-SNAPSHOT

我正在从源代码构建 SC 2.3-SNAPSHOT 并从原型生成项目。 然后我尝试运行示例 Flux 拓扑。 种子注入正确。 我可以在 ES 索引中看到所有这些,状态为 DISCOVERED。 我的问题是注入后似乎没有提取,所以我正在寻找要调查的内容的想法。 所有风暴组件看起来都很好,ES 也是如此 ...

在 StormCrawler 中获取图像而不在状态中索引它们 - fetching image in StormCrawler without indexing them in status

我想下载网页中的所有图像,并将它们提供给一些机器学习算法,以便对这些图像中的对象进行分类和提取。 我不想在状态集合中索引它们,但我想在 JsoupParser bolt 中提取它们,省略它们的地址并在拓扑中下载它们并将它们提供给一些计算机视觉算法。 在 StormCrawler 中可能吗? ...

你如何设置 Stormcrawler 使用 chromedriver 而不是 phantomJS 运行? - How do you set up Stormcrawler to run with chromedriver instead of phantomJS?

此处的教程描述了如何设置 Stormcrawler 以与 phantomJS 一起运行,但 phantomJS 似乎无法获取和执行外链接 javascript 页面(例如,链接到即时页面上下文之外的 javascript 代码)。 然而,Chromedriver 似乎能够处理这种情况。 如何设置 ...

对同一拓扑中的每个域应用不同的解析过滤器 - Applying different parsefilters to each domain in the same topology

我正在尝试爬取不同的网站(电子商务网站)并从每个网站的页面中提取特定信息(即产品价格、数量、发布日期等)。 我的问题是:如何配置解析,因为每个网站都有不同的 HTML 布局,这意味着我需要根据网站不同的相同项目的不同 Xpath? 我们可以在每个网站的拓扑中添加多个解析器螺栓吗? 如果是,我们如何为 ...

优先搜索结果? - Prioritized search results?

几年来,我们一直在使用带有 Elasticsearch 的 StormCrawler 来索引我们自己的网站。 我想知道我们是否可以调整搜索结果以使某些页面出现在结果的顶部? 例如,特定的搜索关键字会将特定页面带到结果的顶部,而不是在列表的下方。 HTML 页面中的关键字元数据字段似乎是这样做的地 ...

我可以在 Stormcrawler 中按锚点或标题过滤外链吗? - Can I filter outlinks by anchor or title in stormcrawler?

我查看了 JsoupParserBolt 代码,在外链通过过滤器后添加了锚点。 如果我想通过文本/锚过滤掉链接,我必须扩展 JsoupParserBolt 并在链接通过过滤器之前将锚添加到元数据,这是真的吗? 有没有其他方法可以在不更改 java 代码的情况下过滤网址? 谢谢。 ...

java.util.ConcurrentModificationException 在stormcrawler中向元数据添加一些键时 - java.util.ConcurrentModificationException when adding some key to metadata in stormcrawler

我在元数据中添加了一个字段,用于传输和保存在状态索引中。 该字段是一个字符串列表,其名称是input_keywords 。 在 Strom 集群中运行拓扑后,拓扑停止并显示以下日志: 我们对拓扑的每个组件都有不同的并行提示。 将input_keywords添加到元数据后,我们得到了错误。 错误的主要 ...

StormCrawler /Elastic Search Apache Tika 用于解析 PDF。 运行拓扑时出错 - StormCrawler /Elastic Search Apache Tika for parsing PDF's. Getting error when running topology

运行 es-crawler.flux 拓扑时出现以下错误。 我不确定我做错了什么。 我认为没有 yaml 错误? 更新了此处引用的 es-crawler.flux 文件* https://gist.github.com/jnioche/3f09c2e3f7da845181b733253bc806f1 ...

如何防止我们的服务器公司出现问题 - How to prevent issues with our server company

我们正在尝试使用 Stormcrawler 抓取我们知道域的每个站点的索引页面 - 礼貌地忽略 robots.txt 告诉我们不要这样做的任何地方。 我们有一个域数据库——其中大约 2.5 亿个——我们正在使用它作为开始。 我们的想法是每周抓取一次这些内容。 我们收到了来自服务器提供商的许多警告目前 ...

设置 Stormcrawler 和 ElasticSearch 来爬取我们的网站 html 文件和 pdf 文档 - Setting up Stormcrawler and ElasticSearch to crawl our website html file and pdf documents

我们正在使用 StormCrawler 和 ElasticSearch 来抓取我们的网站。 我们按照文档将 ElasticSearch 与 StormCrawler 结合使用。 当我们在 Kibana 中搜索时,我们会返回 html 文件结果,但不会返回 pdf 文件内容或链接。 我们如何设置 St ...

在 StormCrawler 中处理重定向域 - dealing with redirect domains in StormCrawler

我正在研究基于 StormCrawler 的项目。 我们的要求之一是找到重定向到另一个域的域。 在 StormCrawler 中,每个重定向的 URL 被认为是爬行的深度。 例如,对于一个有两个重定向步骤的域,我们需要使用 depth=2 进行爬取。 如何在不考虑爬虫深度的情况下解析所有重定向的域? ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM