簡體   English   中英

如果在Web服務器端刪除了以前的“ FETCHED” URL,StormCrawler再次訪問該URL,會發生什么情況?

[英]What happens when a previously “FETCHED” url is removed on the web server side and StormCrawler goes to it again?

我們有許多網站正在更新,添加和刪除。 我對Stormcrawler如何處理以前帶有“ FETCHED” URL的網站感到好奇,當下一次SC到達該URL時,它已被刪除並生成重定向或404。頁面的舊版本,在“索引”索引中?

我知道“狀態”索引中的網址可能會更改為“重定向”或“錯誤”,但是內容本身呢? 它被刪除了嗎? 剩下了嗎 我試圖弄清楚SC在這里的反應,以及是否必須清理“索引”索引中的這些孤立文檔。

我希望SC刪除內容,如果它不再存在,但我想我要確保。

正如您所指出的那樣,缺少的URL將具有FETCH_ERROR狀態,重試多次(參數max.fetch.errors-默認值為 3)后,該狀態將變為ERROR狀態。

如果將DeletionBolt連接到狀態更新程序,則內容將被刪除,請參見示例拓撲

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM