通過螺母更新Solr索引

Question

我正在使用nutch 1.5和solr 3.5。 我想知道通過胡說八道更新Solr索引的最佳方法。 胡鬧的seedlist.txt包含大約一百萬個網址。 每天都會添加新的網址。 此外，某些網址將被刪除或更新。

nutch命令“ ./nutch爬網URL -solr / solr / -dir爬網-depth 1 -topN 10”將選擇新添加的URL進行索引。 但是，更新和刪除的URL完全不會被觸及。

通過刪除爬網文件夾並再次重新索引將解決“添加”和“更新”問題。 但是，將需要很長時間來爬取一百萬個URL，並且“刪除” URL索引仍在Solr中。

我唯一想刪除Solr索引的方法是使用更新命令，例如“ update？commit = true＆stream.body = id：xxxx”。

我的方向正確嗎？ 還是有更好的方法做到這一點？

Answer 1

您幾乎肯定需要將新的URL注入到現有的crawldb中（lookup bin / nutch inject），還可以發出bin / nutch readdb ... -dump dumpfolder-這將向您顯示直到那些舊的URL需要多長時間再次爬網。

Answer 2

您可以更改已變為無效或已刪除的URL的設置，因此當您嘗試重新爬網它們時，會將它們標記為DB_GONE。 更改此設置后，您將根據自己的選擇刪除這些網址。

<property>
  <name>db.update.purge.404</name>
  <value>true</value>
  <description>If true, updatedb will add purge records with status DB_GONE
  from the CrawlDB.
  </description>
</property>

查看http://amac4.blogspot.com/2013/08/nutch-re-crawling.html了解更多詳細信息

通過螺母更新Solr索引

問題描述

2 個解決方案

解決方案1
0 2013-10-13 15:25:44

解決方案2
0 2013-10-14 08:41:03

通過螺母更新Solr索引

問題描述

2 個解決方案

解決方案1 0 2013-10-13 15:25:44

解決方案2 0 2013-10-14 08:41:03

解決方案1
0 2013-10-13 15:25:44

解決方案2
0 2013-10-14 08:41:03