繁体   English   中英

用于数据分析的NoSql或MySQL

[英]NoSql or MySQL for Data Analytics

我们有一个集群(hadoop,pig),它可以生成数据350Gb(每周增长几GB)。

所有这些数据都需要提供给Google Analytics。

我们有一个带有星型模式的Msyql解决方案(只有部分数据加载到此)。

关注的是人们可以伸展多远?

我应该像Hive那样关注NoSQL进行数据分析吗?

我读了这篇文章http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

大数据有多大,何时我应该远离MySQL? Mysql的结构刚性会导致问题吗?

目前数据只有几GB(在MySQL中),但它肯定会增长。 MySQL集群怎么样?

我应该走这条路吗?

350Gb(每周增长几GB)...所有这些数据都需要提供给Google Analytics

你有内部MySQL专家吗? 如果是,确定=>只需创建和扩展MySQL集群。 这个解决方案的唯一问题不是它是MySQL,并不是它不是 NoSQL =>它实际上是因为它需要专家来设置它并且总是在你身边,以防它需要改变。 但你猜=> SQL是什么好多了,简单的分析,比地图/ reduc'ish SQL模拟。

以后使用MySQL解决方案可能会成为问题的是Oracle 因此,请确保您了解可以免费使用的MySQL功能,以及您需要支付的功能。

如果你没有内部的MySQL专家,或者你不想支付一个,你绝对可以转向NoSQL。 这并不意味着您不需要NoSQL产品专业知识,但是将X节点配置和运行为单个系统对于NoSQL解决方案来说是一个非常简单和自然的过程。

例如,在Riak和其他几个NoSQL野兽中,大多数分发复杂性都是由产品解决的,而你根本不需要做任何事情=>它真的很简单。

你用NoSQL支付的价格正在失去SQL(考虑好的聚合功能)和一致性,这是最终的 ,如果你严格做分析,对你来说,一致性可能根本不是一个价格。

作为回报,您将获得非常自然的大数据处理,容错等等

如果你在Hadooooxyz空间,你可以付钱,看看Hadapt ,它承诺5次Hive性能。

问题当然是好几个月了,但是......我最近遇到了InfiniDB,它将MySQL前端放在一个高度可扩展的基于MapReduce的大数据引擎上,专门用于分析。 它可能是这个问题的解决方案 - 原则上它应该是插入并且需要很少的管理和很少的代码更改。 支持在一个盒子上扩展或在多个服务器上扩展...

InfiniDB不是免费的。

查看http://code.google.com/p/shard-query

这就像是一个分片无共享数据库的Map-Reduce。 适用于STAR架构。 在N个节点上对事实表进行分片,并在每个服务器上复制维度表。

您可以查看此博客文章以获取更多信息和性能测试结果:

http://www.mysqlperformanceblog.com/2011/05/06/scale-out-mysql/

仅供参考:我是Shard-Query的作者。

当您开始遇到类比问题中列出的各种问题时,请切换: https//dba.stackexchange.com/questions/5/what-are-the-differences-between-nosql-and-a-traditional- RDBMS

除此之外,回答一般建议之外的问题有点困难,因为您没有提出您要解决的特定问题(例如缩放,读取速度,需要100%一致性的问题等)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM