[英]update solr index by nutch
我正在使用nutch 1.5和solr 3.5。 我想知道通過胡說八道更新Solr索引的最佳方法。 胡鬧的seedlist.txt包含大約一百萬個網址。 每天都會添加新的網址。 此外,某些網址將被刪除或更新。
nutch命令“ ./nutch爬網URL -solr / solr / -dir爬網-depth 1 -topN 10”將選擇新添加的URL進行索引。 但是,更新和刪除的URL完全不會被觸及。
通過刪除爬網文件夾並再次重新索引將解決“添加”和“更新”問題。 但是,將需要很長時間來爬取一百萬個URL,並且“刪除” URL索引仍在Solr中。
我唯一想刪除Solr索引的方法是使用更新命令,例如“ update?commit = true&stream.body = id:xxxx”。
我的方向正確嗎? 還是有更好的方法做到這一點?
您幾乎肯定需要將新的URL注入到現有的crawldb中(lookup bin / nutch inject),還可以發出bin / nutch readdb ... -dump dumpfolder-這將向您顯示直到那些舊的URL需要多長時間再次爬網。
您可以更改已變為無效或已刪除的URL的設置,因此當您嘗試重新爬網它們時,會將它們標記為DB_GONE。 更改此設置后,您將根據自己的選擇刪除這些網址。
<property>
<name>db.update.purge.404</name>
<value>true</value>
<description>If true, updatedb will add purge records with status DB_GONE
from the CrawlDB.
</description>
</property>
查看http://amac4.blogspot.com/2013/08/nutch-re-crawling.html了解更多詳細信息
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.