[英]Solr deduplication error while indexing nutch data
我已经将nutch 2.3.1与solr 6.5集成在一起,这样我就可以将数据推送到solr并获取索引。 现在,我想删除重复的元素,为此,我在schema.xml和solrconfig.xml中进行了修改。
<field name="signatureField" type="string" stored="true" indexed="true" multiValued="false" />
<updateRequestProcessorChain name="dedupe">
<processor class="solr.processor.SignatureUpdateProcessorFactory">
<bool name="enabled">true</bool>
<str name="signatureField">id</str>
<bool name="overwriteDupes">false</bool>
<str name="fields">id,content,date,url</str> <!-- changing to id <str name="fields">name,features,cat</str>-->
<str name="signatureClass">solr.processor.Lookup3Signature</str>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
<requestHandler name="/update" class="solr.UpdateRequestHandler" >
<lst name="defaults">
<str name="update.chain">dedupe</str>
</lst>
</requestHandler>
但是在索引bin / nutch solrindex http:// localhost:8983 / solr / testcore后 -所有错误!! 请帮助我解决这个问题
预先感谢您:)
此问题可能与更新的架构有关,如果Solr中存在一些数据,并且在核心中存在该数据时又更新了该架构,Nutch会将其视为不匹配的架构,解决此问题的最佳方法是重新抓取架构已更新的网页,请记住,对该架构的任何更新都会/可能会导致您现有索引出现问题。
由于帖子已经很老了,可能有同样问题的人可以参考。
最好 :)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.