[英]Apache Nutch - indexing only the modified files in Solr
我能夠設置Apache Nutch並在Solr中獲取數據索引。 在建立索引時,我試圖確保僅對修改的頁面進行索引。 以下是我們對此有的兩個問題。
是否可以告訴Nutch在爬網時發送“ If-modified-since”標題,並僅在自上次爬網以來已更改的頁面下載頁面。
我可以看到Nutch正在從檢索到的頁面內容中形成MD5摘要,但是即使摘要未更改(與以前的版本相比),它仍然是Solr中對頁面的索引。 Nutch中是否有任何設置可以確保內容是否未更改,並確保它在Solr中沒有索引?
在這里回答我自己的問題,希望對某人有幫助。一旦我設置了適應性提取時間表,就可以看到Nutch沒有提取未更改的頁面。它尊重if-modified-since標頭。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.