繁体   English   中英

澄清Stormcrawler的default-regex-filters.txt如何工作

[英]Clarification on how Stormcrawler's default-regex-filters.txt works

使用Stormcrawler,如果我将-^(http|https):\\/\\/example.com\\/page\\/?date到default-regex-filters.txt但我仍然看到

2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list
2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec

在日志中,索引中没有文档显示。 Stormcrawler是在避开url,还是仍在提取它,或者只是从状态表中检索一个url然后对其进行评估?

过滤将应用于解析后的外链,“幸存的”URL将发送到状态更新程序。 它会影响URL的发现,换句话说,如果一个URL由一个spout发送,它将被处理。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM