[英]Hive layer on top of MySQL Cluster
免责声明:我是Hadoop和Hive的新手。
我们已经建立了一个MySql Cluster(版本7.2.5),用于存储大量数据。 这些行数以百万计,并根据Mysql的自动分片逻辑进行分区。 即使我们利用群集7.2的自适应查询本地化(AQL),我们的某些查询也具有多个联接,并且运行了相当长的时间,有时甚至是几个小时。
在这种情况下,我可以将Hive与Hadoop一起使用来查询数据库并检索数据吗? 它将使查询更快吗? 它是否在其文件系统中复制数据? 这种方法的优缺点是什么?
我的目的是将Hive用作MySQL Cluster之上的一层,并将其用于从MySQL Cluster数据库读取和向MySQL Cluster DB写入。 我的申请中没有任何交易。 那真的有可能吗?
我认为有可能。 我所知道的朝这个方向最接近的解决方案是Daniel Abadi的:http://www.hadapt.com/。
解决方案的想法是在每个节点上具有本地RDBMS并运行常规的hadoop MR,然后在这些节点上将Hive置于其之上。
原则上,如果您要进行智能Hive集成并将谓词下推到MySQL实例,则可以提高性能。
同时,您应该进行一些严肃的黑客操作,以使hadoop意识到您对分片放置进行了维护,以保留数据局部性。
总结以上所有内容-应该有可能,但需要认真发展。
同时-我不知道开箱即用的解决方案可以按原样在Mysql群集上运行hive。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.