繁体 English 中英

用于数据分析的NoSql或MySQL

[英]NoSql or MySQL for Data Analytics

原文 2011-10-15 21:49:16 7 4 mysql/ nosql/ hive

我们有一个集群（hadoop，pig），它可以生成数据350Gb（每周增长几GB）。

所有这些数据都需要提供给Google Analytics。

我们有一个带有星型模式的Msyql解决方案（只有部分数据加载到此）。 但

关注的是人们可以伸展多远？

我应该像Hive那样关注NoSQL进行数据分析吗？

我读了这篇文章http://anders.com/cms/282/Distributed.Data/Hadoop/Hbase/Hive

大数据有多大，何时我应该远离MySQL？ Mysql的结构刚性会导致问题吗？

目前数据只有几GB（在MySQL中），但它肯定会增长。 MySQL集群怎么样？

我应该走这条路吗？

4 个解决方案

350Gb（每周增长几GB）...所有这些数据都需要提供给Google Analytics

你有内部MySQL专家吗？ 如果是，确定=>只需创建和扩展MySQL集群。 这个解决方案的唯一问题不是它是MySQL，并不是它不是 NoSQL =>它实际上是因为它需要专家来设置它并且总是在你身边，以防它需要改变。 但你猜=> SQL是什么好多了，简单的分析，比地图/ reduc'ish SQL模拟。

以后使用MySQL解决方案可能会成为问题的是Oracle 。 因此，请确保您了解可以免费使用的MySQL功能，以及您需要支付的功能。

如果你没有内部的MySQL专家，或者你不想支付一个，你绝对可以转向NoSQL。 这并不意味着您不需要NoSQL产品专业知识，但是将X节点配置和运行为单个系统对于NoSQL解决方案来说是一个非常简单和自然的过程。

例如，在Riak和其他几个NoSQL野兽中，大多数分发复杂性都是由产品解决的，而你根本不需要做任何事情=>它真的很简单。

你用NoSQL支付的价格正在失去SQL（考虑好的聚合功能）和一致性，这是最终的 ，如果你严格做分析，对你来说，一致性可能根本不是一个价格。

作为回报，您将获得非常自然的大数据处理，容错等等。

如果你在Hadooooxyz空间，你可以付钱，看看Hadapt ，它承诺5次Hive性能。

问题当然是好几个月了，但是......我最近遇到了InfiniDB，它将MySQL前端放在一个高度可扩展的基于MapReduce的大数据引擎上，专门用于分析。 它可能是这个问题的解决方案 - 原则上它应该是插入并且需要很少的管理和很少的代码更改。 支持在一个盒子上扩展或在多个服务器上扩展...