簡體   English   中英

通過螺母更新Solr索引

[英]update solr index by nutch

我正在使用nutch 1.5和solr 3.5。 我想知道通過胡說八道更新Solr索引的最佳方法。 胡鬧的seedlist.txt包含大約一百萬個網址。 每天都會添加新的網址。 此外,某些網址將被刪除或更新。

nutch命令“ ./nutch爬網URL -solr / solr / -dir爬網-depth 1 -topN 10”將選擇新添加的URL進行索引。 但是,更新和刪除的URL完全不會被觸及。

通過刪除爬網文件夾並再次重新索引將解決“添加”和“更新”問題。 但是,將需要很長時間來爬取一百萬個URL,並且“刪除” URL索引仍在Solr中。

我唯一想刪除Solr索引的方法是使用更新命令,例如“ update?commit = true&stream.body = id:xxxx”。

我的方向正確嗎? 還是有更好的方法做到這一點?

您幾乎肯定需要將新的URL注入到現有的crawldb中(lookup bin / nutch inject),還可以發出bin / nutch readdb ... -dump dumpfolder-這將向您顯示直到那些舊的URL需要多長時間再次爬網。

您可以更改已變為無效或已刪除的URL的設置,因此當您嘗試重新爬網它們時,會將它們標記為DB_GONE。 更改此設置后,您將根據自己的選擇刪除這些網址。

<property>
  <name>db.update.purge.404</name>
  <value>true</value>
  <description>If true, updatedb will add purge records with status DB_GONE
  from the CrawlDB.
  </description>
</property>

查看http://amac4.blogspot.com/2013/08/nutch-re-crawling.html了解更多詳細信息

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM