繁体   English   中英

在Azure和Lucene.NET上构建分布式索引。 我应该学习Solr和Hadoop吗?

[英]Building a distributed index on Azure and Lucene.NET. Should I learn Solr and Hadoop?

我需要基于Azure / Lucene.NET实现的搜索索引。 话虽这么说,我对Solr和Hadoop,或者他们为Linux人群提供的东西知之甚少。

由于我不知道我前面的学习曲线,我会告诉你我在寻找什么,也许你可以告诉我应该如何度过我的时间。

我有兴趣索引来自我们系统的不断增长的一批电子邮件。 在发送或接收消息时,它们需要是可搜索的。 这意味着索引可能变得庞大,这就是我们关注云存储的原因。 考虑到我对Azure很熟悉,管理层认为我们使用的是Lucene.NET。

您认为我花费时间的最佳方式是什么:研究如何使Lucene.NET索引我的文档,或者查看Solr / Hadoop的实现。

如果不了解源语料库的规模(我们在近乎实时的应用程序中运行几个TB),我可以分享一些经验。 我们主要是一个.NET商店,我们发现使用SolrNet等工具很容易使用Solr,这对我们的开发人员来说非常简单。

使用Solr的优点很多:从明显的方面,如刻面,简单,灵活的API,如果你需要一个等; 事实上,它拥有更加活跃的社区,并拥有最新和最强大的功能和修复( 参见 Lucene.net)。 重要的是,我们可以使用Solr与商用机器轻松地线性扩展(抱歉无法与使用云进行$比较),但考虑到我们用于分片的机器(几乎为零)的成本,我无法想象使用Azure或AWS会更便宜。

希望有所帮助。

如果您可以通过HTTP与索引机器通信,我建议您使用Solr。 只需更改配置文件,即可轻松设置Solr服务器而无需任何编程。 它可以很好地扩展 ,请参阅: 缩放Lucene和Solr 目前正在开发的是Solr Cloud ,它将使Solr更容易扩展并支持一些类似hadoop的功能。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM