簡體   English   中英

用於數據分析的NoSql或MySQL

[英]NoSql or MySQL for Data Analytics

我們有一個集群(hadoop,pig),它可以生成數據350Gb(每周增長幾GB)。

所有這些數據都需要提供給Google Analytics。

我們有一個帶有星型模式的Msyql解決方案(只有部分數據加載到此)。

關注的是人們可以伸展多遠?

我應該像Hive那樣關注NoSQL進行數據分析嗎?

我讀了這篇文章http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

大數據有多大,何時我應該遠離MySQL? Mysql的結構剛性會導致問題嗎?

目前數據只有幾GB(在MySQL中),但它肯定會增長。 MySQL集群怎么樣?

我應該走這條路嗎?

350Gb(每周增長幾GB)...所有這些數據都需要提供給Google Analytics

你有內部MySQL專家嗎? 如果是,確定=>只需創建和擴展MySQL集群。 這個解決方案的唯一問題不是它是MySQL,並不是它不是 NoSQL =>它實際上是因為它需要專家來設置它並且總是在你身邊,以防它需要改變。 但你猜=> SQL是什么好多了,簡單的分析,比地圖/ reduc'ish SQL模擬。

以后使用MySQL解決方案可能會成為問題的是Oracle 因此,請確保您了解可以免費使用的MySQL功能,以及您需要支付的功能。

如果你沒有內部的MySQL專家,或者你不想支付一個,你絕對可以轉向NoSQL。 這並不意味着您不需要NoSQL產品專業知識,但是將X節點配置和運行為單個系統對於NoSQL解決方案來說是一個非常簡單和自然的過程。

例如,在Riak和其他幾個NoSQL野獸中,大多數分發復雜性都是由產品解決的,而你根本不需要做任何事情=>它真的很簡單。

你用NoSQL支付的價格正在失去SQL(考慮好的聚合功能)和一致性,這是最終的 ,如果你嚴格做分析,對你來說,一致性可能根本不是一個價格。

作為回報,您將獲得非常自然的大數據處理,容錯等等

如果你在Hadooooxyz空間,你可以付錢,看看Hadapt ,它承諾5次Hive性能。

問題當然是好幾個月了,但是......我最近遇到了InfiniDB,它將MySQL前端放在一個高度可擴展的基於MapReduce的大數據引擎上,專門用於分析。 它可能是這個問題的解決方案 - 原則上它應該是插入並且需要很少的管理和很少的代碼更改。 支持在一個盒子上擴展或在多個服務器上擴展...

InfiniDB不是免費的。

查看http://code.google.com/p/shard-query

這就像是一個分片無共享數據庫的Map-Reduce。 適用於STAR架構。 在N個節點上對事實表進行分片,並在每個服務器上復制維度表。

您可以查看此博客文章以獲取更多信息和性能測試結果:

http://www.mysqlperformanceblog.com/2011/05/06/scale-out-mysql/

僅供參考:我是Shard-Query的作者。

當您開始遇到類比問題中列出的各種問題時,請切換: https//dba.stackexchange.com/questions/5/what-are-the-differences-between-nosql-and-a-traditional- RDBMS

除此之外,回答一般建議之外的問題有點困難,因為您沒有提出您要解決的特定問題(例如縮放,讀取速度,需要100%一致性的問題等)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM