簡體 English 中英

Cassandra（從BI的數據庫復制數據）

[英]Cassandra (Data Replication From Database For BI)

原文 2013-04-29 17:34:00 7 2 database/ hadoop/ cassandra/ elasticsearch

我們有多個數據庫，我們可以查詢並生成報告。 由於我們必須創建復雜的查詢並進行大量聯接等操作，因此，如果我們使用Cassandra或Hadoop或Elasticsearch加載數據（每日作業以加載數據或增量更新）並查詢該數據庫中的所有任務，這是一個好主意。

最好選擇Cassandra或Hadoop或Elasticsearch或MongoDB？

我們還希望構建一個Web UI，以在統一數據庫上進行報告和分析。

2 個解決方案

我不能推薦MongoDB。 就大數據分析而言，它是次要的，它的Map-Reduce實現很差，Map-Reduce速度很慢且是單線程的。 您可以選擇Cassandra + Hadoop或HDFS + Hadoop。 如果是Hadoop，則不受存儲類型的限制，您可以在HDFS中刷新（或初始存儲）數據，然后使用MapReduce對其進行迭代。

如果需要耐用性，請查看Cassandra。 首先，Cassandra易於維護且非常可靠。 我相信Cassandra是世界上最可靠的noSQL數據庫。 它絕對是水平可調用的，沒有名稱節點，沒有主/從節點，所有節點都具有權限級別。

使用Elasticsearch，您只能進行搜索。 如果您有大量數據並且需要分析，則應考慮使用Hadoop和MapReduce。

使用Hadoop，您可以開始使用Hive或Pig-我見過的最強大的map-reduce抽象。 使用Hadoop，您甚至可以開始考慮遷移到Spark / Shark。

如果您的選擇僅限於這三個，那么Cassandra將是最好的選擇，因為MapReduce程序中的編寫聯接需要大量努力，並且要通過多次和一系列的MapReduce程序鏈接才能正確地建立一個聯接。如果您的選項是開放的，則Apache Hive可用於非交互式或報表應用程序，因為它支持相當數量的SQL功能，例如聯接，分組依據，排序依據等。ApacheHive再次支持SQL之類的查詢，並且不會與傳統的SQL有很大不同。

您還可以考慮將Apache Drill ，Hortonworks Stinger和Cloudera Impala用於交互式報告應用程序。