[英]Nutch/Elastic Search terms definition
我使用 nutch 和 Elastisearch 来抓取/解析 99 个网站/链接,以便在 Elasicsearch 中为它们编制索引,以便我可以使用搜索引擎。 它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。 我想了解重定向、添加/更新是什么意思? 如果有可能找出哪些已经消失并重定向?
Indexer: number of documents indexed, deleted, or skipped:
Indexer: 5 deleted (gone)
Indexer: 8 deleted (redirects)
Indexer: 76 indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08
Nutch 不知道某个页面是否已经在索引中。 为了使索引和爬取的内容保持同步,
-deleteGone
)从索引中删除 404 和其他失败的提取并计为“已消失”如果有可能找出哪些已经消失并重定向?
您可以使用 Nutch 工具
readdb
转储 CrawlDbreadseg
转储被索引的段然后搜索 404、获取失败、重定向等。分别调用bin/nutch readdb
。 bin/nutch readseg
将显示所有可用的命令行选项。
“消失”意味着该网站或文档不再可用。 如果网站或文档已被删除或 URL 已更改,则可能会发生这种情况。
“重定向”是指网站或文档已移至新的 URL。 重定向网站或文档时,旧 URL 将自动重定向到新 URL。 这通常用于更新网站或文档的 URL 或将多个 URL 合并为一个。
“添加/更新”状态表示网站或文档已成功编入索引,并作为新条目添加到 Elasticsearch 索引中或更新(如果已存在)。
要找出哪些网站或文件被删除或重定向,您可以检查日志或尝试访问网站或文件的 URL,看看它们是否仍然可用,或者它们是否重定向到新的 URL。 您还可以检查 Elasticsearch 索引以查看网站或文档是否仍然存在。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.