簡體   English   中英

在Azure和Lucene.NET上構建分布式索引。 我應該學習Solr和Hadoop嗎?

[英]Building a distributed index on Azure and Lucene.NET. Should I learn Solr and Hadoop?

我需要基於Azure / Lucene.NET實現的搜索索引。 話雖這么說,我對Solr和Hadoop,或者他們為Linux人群提供的東西知之甚少。

由於我不知道我前面的學習曲線,我會告訴你我在尋找什么,也許你可以告訴我應該如何度過我的時間。

我有興趣索引來自我們系統的不斷增長的一批電子郵件。 在發送或接收消息時,它們需要是可搜索的。 這意味着索引可能變得龐大,這就是我們關注雲存儲的原因。 考慮到我對Azure很熟悉,管理層認為我們使用的是Lucene.NET。

您認為我花費時間的最佳方式是什么:研究如何使Lucene.NET索引我的文檔,或者查看Solr / Hadoop的實現。

如果不了解源語料庫的規模(我們在近乎實時的應用程序中運行幾個TB),我可以分享一些經驗。 我們主要是一個.NET商店,我們發現使用SolrNet等工具很容易使用Solr,這對我們的開發人員來說非常簡單。

使用Solr的優點很多:從明顯的方面,如刻面,簡單,靈活的API,如果你需要一個等; 事實上,它擁有更加活躍的社區,並擁有最新和最強大的功能和修復( 參見 Lucene.net)。 重要的是,我們可以使用Solr與商用機器輕松地線性擴展(抱歉無法與使用雲進行$比較),但考慮到我們用於分片的機器(幾乎為零)的成本,我無法想象使用Azure或AWS會更便宜。

希望有所幫助。

如果您可以通過HTTP與索引機器通信,我建議您使用Solr。 只需更改配置文件,即可輕松設置Solr服務器而無需任何編程。 它可以很好地擴展 ,請參閱: 縮放Lucene和Solr 目前正在開發的是Solr Cloud ,它將使Solr更容易擴展並支持一些類似hadoop的功能。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM