繁体   English   中英

从Lucene Index更新Solr

[英]updating Solr from Lucene Index

我目前正在从事Web归档项目。 基本上,我们尝试做的是归档一组网站(使用heritrix crawler ),并通过Web界面提供对归档内容的访问。

我们还提供整个档案的全文搜索。 当前,该索引是使用nutchwax (apache Nutch的定制版本,专门为.warc文件创建索引,由heritrix生成)生成的。 Nutchwax会转储Lucene索引,并在Solr中使用它,所有要做的就是生成正确的模式。

这一切都已经完成,并且运行正常,但是存档不是静态的,并且定期生成新的.warc文件。

我现在能做的是生成一个新索引,将其与现有索引合并,然后将其导入回Solr。 但是,要做到这一点,必须重新启动Solr。 如果可以“动态”更新索引,那将是很好的,因为通常是这种情况(通过http请求更新索引时)

有谁知道,该怎么做? 我的第一步是从Lucene索引文件中生成.xml文件并将其发布到Solr。 这值得一试还是有更优雅的解决方案?

您可能可以利用多个内核来完成所需的工作。 有关更多详细信息,请参见Solr Wiki-CoreAdmin 我认为您可以利用MergeIndexes功能或交换内核的功能在您的方案中获得更好的体验。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM