![](/img/trans.png)
[英]stormcrawler: indexer.md.mapping - what happens if the metadata tag does not exist?
[英]What happens when a previously “FETCHED” url is removed on the web server side and StormCrawler goes to it again?
我們有許多網站正在更新,添加和刪除。 我對Stormcrawler如何處理以前帶有“ FETCHED” URL的網站感到好奇,當下一次SC到達該URL時,它已被刪除並生成重定向或404。頁面的舊版本,在“索引”索引中?
我知道“狀態”索引中的網址可能會更改為“重定向”或“錯誤”,但是內容本身呢? 它被刪除了嗎? 剩下了嗎 我試圖弄清楚SC在這里的反應,以及是否必須清理“索引”索引中的這些孤立文檔。
我希望SC刪除內容,如果它不再存在,但我想我要確保。
正如您所指出的那樣,缺少的URL將具有FETCH_ERROR狀態,重試多次(參數max.fetch.errors-默認值為 3)后,該狀態將變為ERROR狀態。
如果將DeletionBolt連接到狀態更新程序,則內容將被刪除,請參見示例拓撲 。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.