繁体   English   中英

Nutch/Elastic 搜索术语定义

[英]Nutch/Elastic Search terms definition

我使用 nutch 和 Elastisearch 来抓取/解析 99 个网站/链接,以便在 Elasicsearch 中为它们编制索引,以便我可以使用搜索引擎。 它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。 我想了解重定向、添加/更新是什么意思? 如果有可能找出哪些已经消失并重定向?

Indexer: number of documents indexed, deleted, or skipped:
Indexer:      5  deleted (gone)
Indexer:      8  deleted (redirects)
Indexer:     76  indexed (add/update)
Indexer: finished at 2020-12-17 13:07:19, elapsed: 00:00:08

Nutch 不知道某个页面是否已经在索引中。 为了使索引和爬取的内容保持同步,

  • 成功获取的页面被发送到索引并计为添加或更新
  • (使用索引器选项-deleteGone )从索引中删除 404 和其他失败的提取并计为“已消失”
  • 重定向相同,但单独计为“重定向”

如果有可能找出哪些已经消失并重定向?

您可以使用 Nutch 工具

  • readdb转储 CrawlDb
  • readseg转储被索引的段

然后搜索 404、获取失败、重定向等。分别调用bin/nutch readdb bin/nutch readseg将显示所有可用的命令行选项。

“消失”意味着该网站或文档不再可用。 如果网站或文档已被删除或 URL 已更改,则可能会发生这种情况。

“重定向”是指网站或文档已移至新的 URL。 重定向网站或文档时,旧 URL 将自动重定向到新 URL。 这通常用于更新网站或文档的 URL 或将多个 URL 合并为一个。

“添加/更新”状态表示网站或文档已成功编入索引,并作为新条目添加到 Elasticsearch 索引中或更新(如果已存在)。

要找出哪些网站或文件被删除或重定向,您可以检查日志或尝试访问网站或文件的 URL,看看它们是否仍然可用,或者它们是否重定向到新的 URL。 您还可以检查 Elasticsearch 索引以查看网站或文档是否仍然存在。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM