簡體   English   中英

帶有MongoDB概念的Hadoop

[英]Hadoop with MongoDB Concept

嗨,我是Hadoop和NoSQL技術的新手。 我通過讀取存儲在HDFS中的文件並進行處理來開始使用世界計數程序進行學習。 現在,我想將Hadoop與MongoDB結合使用。 這里開始程序。

現在讓我感到困惑的是,它在我的本地文件系統上存儲了mongodb數據,並以map / reduce的方式從本地文件系統中讀取數據到HDFS,然后再次將其寫入mongodb本地文件系統中。 當我學習HBase時,我們可以對其進行配置以將其數據存儲在HDFS上,而hadoop可以直接在HDFS上對其進行處理(映射/縮小)。 如何配置mongodb以將其數據存儲在HDFS上。

我認為將數據存儲在HDFS中以進行快速處理是一種更好的方法。 不在本地文件系統中。 我對嗎? 如果我走錯了方向,請清除我的概念。

HDFS是一個分布式文件系統,而HBase是一個NoSQL數據庫,它使用HDFS作為其文件系統,可以與Hadoop進行快速有效的集成,並且已經證明可以大規模運行。 選擇HBase作為NoSQL數據庫解決方案時,能夠直接在Hadoop中直接使用HBase數據或將其推入HDFS是最大的優勢之一-我不認為MongoDB提供與Hadoop和HDFS如此緊密的集成會降低性能和性能。將數據移入/移出數據庫的效率問題。

請查看此博客文章,以詳細分析MongoDB與Hadoop的集成程度-結論之一是MongoDB對HDFS的寫入效果不佳: http : //www.ikanow.com/how-well-does -mongodb-集成與-的Hadoop /

MongoDB並不是在HDFS之上構建的,它並不是真正必要的,因為Mongo已經有了自己的水平擴展和處理跨多台機器存儲的數據的方法。

如果需要使用MongoDB和Hadoop,更好的方法是使用MongoDB作為數據源,但處理Hadoop中的所有內容(它將使用HDFS進行任何臨時存儲)。 處理完數據后,您可以將其寫回到MongoDB,S3或任何您想要的地方。

我寫了一篇博客文章,在這里詳細介紹了如何使用Mongo和Hadoop: http//blog.mortardata.com/post/43080668046/mongodb-hadoop-why-how

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM