簡體 English 中英

用於數據分析的NoSql或MySQL

[英]NoSql or MySQL for Data Analytics

原文 2011-10-15 21:49:16 6 4 mysql/ nosql/ hive

我們有一個集群（hadoop，pig），它可以生成數據350Gb（每周增長幾GB）。

所有這些數據都需要提供給Google Analytics。

我們有一個帶有星型模式的Msyql解決方案（只有部分數據加載到此）。 但

關注的是人們可以伸展多遠？

我應該像Hive那樣關注NoSQL進行數據分析嗎？

我讀了這篇文章http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

大數據有多大，何時我應該遠離MySQL？ Mysql的結構剛性會導致問題嗎？

目前數據只有幾GB（在MySQL中），但它肯定會增長。 MySQL集群怎么樣？

我應該走這條路嗎？

4 個解決方案

350Gb（每周增長幾GB）...所有這些數據都需要提供給Google Analytics

你有內部MySQL專家嗎？ 如果是，確定=>只需創建和擴展MySQL集群。 這個解決方案的唯一問題不是它是MySQL，並不是它不是 NoSQL =>它實際上是因為它需要專家來設置它並且總是在你身邊，以防它需要改變。 但你猜=> SQL是什么好多了，簡單的分析，比地圖/ reduc'ish SQL模擬。

以后使用MySQL解決方案可能會成為問題的是Oracle 。 因此，請確保您了解可以免費使用的MySQL功能，以及您需要支付的功能。

如果你沒有內部的MySQL專家，或者你不想支付一個，你絕對可以轉向NoSQL。 這並不意味着您不需要NoSQL產品專業知識，但是將X節點配置和運行為單個系統對於NoSQL解決方案來說是一個非常簡單和自然的過程。

例如，在Riak和其他幾個NoSQL野獸中，大多數分發復雜性都是由產品解決的，而你根本不需要做任何事情=>它真的很簡單。

你用NoSQL支付的價格正在失去SQL（考慮好的聚合功能）和一致性，這是最終的 ，如果你嚴格做分析，對你來說，一致性可能根本不是一個價格。

作為回報，您將獲得非常自然的大數據處理，容錯等等。

如果你在Hadooooxyz空間，你可以付錢，看看Hadapt ，它承諾5次Hive性能。

問題當然是好幾個月了，但是......我最近遇到了InfiniDB，它將MySQL前端放在一個高度可擴展的基於MapReduce的大數據引擎上，專門用於分析。 它可能是這個問題的解決方案 - 原則上它應該是插入並且需要很少的管理和很少的代碼更改。 支持在一個盒子上擴展或在多個服務器上擴展...