繁体   English   中英

当Titan执行查询时,HDFS中存储的内容以及为什么map-reduce计算速度如此之快?

[英]What is stored in HDFS and why map-reduce compute so fast when Titan execute queries ?

我现在正在学习泰坦。 我在远程模式下使用Titan和HBase。

现在有三个问题让我很困惑。 我在下面描述了它们:

  1. 在TinkerPop3文档中,它说“任何OLAP操作的结果都存储在可通过hdfs访问的HDFS中。” 但是现在我使用Titan进行OLTP,以及在这种情况下存储在HDFS中的内容是什么?

  2. 当我们使用Titan连接HBase成功(通过Java IDE)时,我们可以看到在HBase shell中创建的表并扫描内容。 表中内容'列'的含义是什么?它们是否表示图中的顶点id?

  3. 当我测试Titan的性能时,我观察到查询的速度比正常的map-reduce工作更快。 为什么泰坦可以实现它? 在Titan-Documentation中,他们使用并行map-reduce模型说Titan引擎“Titan-Hadoop”。我可以得到更详细的介绍吗?

  1. Titan 架构图有助于显示OLTP和OLAP使用之间的区别。 请参阅架构图的右侧:TinkerPop API - Gremlin。 无论您选择哪种后端存储(Cassandra,HBase,BerkeleyDB),OLTP都是Titan最常用的用法。 使用Titan-HBase进行OLTP查询时,HDFS中不存储任何内容。 实际上,对于使用Titan-HBase的OLTP,完全不需要HDFS / Hadoop。

  2. 在HBase中扫描Titan表的内容时,您将找到该图的序列化表示。 Titan在键/列/值上使用数据压缩技术,因此您会发现数据不是人类可读的。 您可以在Titan文档中阅读有关存储布局细节的更多信息。

  3. 请参阅#1的答案,您可能已经在运行OLTP查询。 Hadoop风格的OLAP图形处理通过图形计算机完成。 它使用TitanHBaseInputFormat从后端存储中读取数据,然后使用TinkerPop图形计算机( Spark或Giraph )来运行OLAP作业。 请参阅上面的架构图的左侧:GremlinGraphComputer。 Titan文档中还有一些这方面的文档

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM