繁体 English 中英

澄清Stormcrawler的default-regex-filters.txt如何工作

[英]Clarification on how Stormcrawler's default-regex-filters.txt works

原文 2019-03-20 13:24:19 8 1 web-crawler/ stormcrawler

使用Stormcrawler，如果我将-^(http|https):\\/\\/example.com\\/page\\/?date到default-regex-filters.txt但我仍然看到

2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list
2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec

在日志中，索引中没有文档显示。 Stormcrawler是在避开url，还是仍在提取它，或者只是从状态表中检索一个url然后对其进行评估？

1 个解决方案

过滤将应用于解析后的外链，“幸存的”URL将发送到状态更新程序。 它会影响URL的发现，换句话说，如果一个URL由一个spout发送，它将被处理。

StormCrawler的default-regex-filters.txt

[英]StormCrawler's default-regex-filters.txt

如何在StormCrawler中使用快速网址过滤器？

[英]how to use fast url filters in StormCrawler?

Stormcrawler的ContentParseFilter

[英]Stormcrawler's ContentParseFilter

如何自定义 StormCrawler？

[英]How to customize StormCrawler?

如何限制stormcrawler中的爬行深度

[英]how to limit the crawling depth in stormcrawler

StormCrawler如何识别种子网址？

[英]how StormCrawler identifies seed urls?

StormCrawler的原型拓扑不会获取出站

[英]StormCrawler's archetype topology does not fetch outlinks

如何在 StormCrawler 中将 URL 作为文本文件播种？

[英]How to seed URLs as a text file in StormCrawler?

如何在 parsefilter.json 中添加更多 XPATH 在stormcrawler

[英]How to add more XPATH in parsefilter.json in stormcrawler

StormCrawler设置

[英]StormCrawler settings

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 StormCrawler的default-regex-filters.txt 如何在StormCrawler中使用快速网址过滤器？ Stormcrawler的ContentParseFilter 如何自定义 StormCrawler？如何限制stormcrawler中的爬行深度 StormCrawler如何识别种子网址？ StormCrawler的原型拓扑不会获取出站如何在 StormCrawler 中将 URL 作为文本文件播种？如何在 parsefilter.json 中添加更多 XPATH 在stormcrawler StormCrawler设置

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM