簡體   English   中英

Apache Nutch-僅在Solr中索引已修改的文件

[英]Apache Nutch - indexing only the modified files in Solr

我能夠設置Apache Nutch並在Solr中獲取數據索引。 在建立索引時,我試圖確保僅對修改的頁面進行索引。 以下是我們對此有的兩個問題。

  • 是否可以告訴Nutch在爬網時發送“ If-modified-since”標題,並僅在自上次爬網以來已更改的頁面下載頁面。

  • 我可以看到Nutch正在從檢索到的頁面內容中形成MD5摘要,但是即使摘要未更改(與以前的版本相比),它仍然是Solr中對頁面的索引。 Nutch中是否有任何設置可以確保內容是否未更改,並確保它在Solr中沒有索引?

在這里回答我自己的問題,希望對某人有幫助。一旦我設置了適應性提取時間表,就可以看到Nutch沒有提取未更改的頁面。它尊重if-modified-since標頭。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM