簡體   English   中英

Cassandra(從BI的數據庫復制數據)

[英]Cassandra (Data Replication From Database For BI)

我們有多個數據庫,我們可以查詢並生成報告。 由於我們必須創建復雜的查詢並進行大量聯接等操作,因此,如果我們使用Cassandra或Hadoop或Elasticsearch加載數據(每日作業以加載數據或增量更新)並查詢該數據庫中的所有任務,這是一個好主意。

最好選擇Cassandra或Hadoop或Elasticsearch或MongoDB?

我們還希望構建一個Web UI,以在統一數據庫上進行報告和分析。

我不能推薦MongoDB。 就大數據分析而言,它是次要的,它的Map-Reduce實現很差,Map-Reduce速度很慢且是單線程的。 您可以選擇Cassandra + Hadoop或HDFS + Hadoop。 如果是Hadoop,則不受存儲類型的限制,您可以在HDFS中刷新(或初始存儲)數據,然后使用MapReduce對其進行迭代。

如果需要耐用性,請查看Cassandra。 首先,Cassandra易於維護且非常可靠。 我相信Cassandra是世界上最可靠的noSQL數據庫。 它絕對是水平可調用的,沒有名稱節點,沒有主/從節點,所有節點都具有權限級別。

使用Elasticsearch,您只能進行搜索。 如果您有大量數據並且需要分析,則應考慮使用Hadoop和MapReduce。

使用Hadoop,您可以開始使用Hive或Pig-我見過的最強大的map-reduce抽象。 使用Hadoop,您甚至可以開始考慮遷移到Spark / Shark。

如果您的選擇僅限於這三個,那么Cassandra將是最好的選擇,因為MapReduce程序中的編寫聯接需要大量努力,並且要通過多次和一系列的MapReduce程序鏈接才能正確地建立一個聯接。 如果您的選項是開放的,則Apache Hive可用於非交互式或報表應用程序,因為它支持相當數量的SQL功能,例如聯接,分組依據,排序依據等。ApacheHive再次支持SQL之類的查詢,並且不會與傳統的SQL有很大不同。

您還可以考慮將Apache Drill ,Hortonworks Stinger和Cloudera Impala用於交互式報告應用程序。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM