簡體   English   中英

當Titan執行查詢時,HDFS中存儲的內容以及為什么map-reduce計算速度如此之快?

[英]What is stored in HDFS and why map-reduce compute so fast when Titan execute queries ?

我現在正在學習泰坦。 我在遠程模式下使用Titan和HBase。

現在有三個問題讓我很困惑。 我在下面描述了它們:

  1. 在TinkerPop3文檔中,它說“任何OLAP操作的結果都存儲在可通過hdfs訪問的HDFS中。” 但是現在我使用Titan進行OLTP,以及在這種情況下存儲在HDFS中的內容是什么?

  2. 當我們使用Titan連接HBase成功(通過Java IDE)時,我們可以看到在HBase shell中創建的表並掃描內容。 表中內容'列'的含義是什么?它們是否表示圖中的頂點id?

  3. 當我測試Titan的性能時,我觀察到查詢的速度比正常的map-reduce工作更快。 為什么泰坦可以實現它? 在Titan-Documentation中,他們使用並行map-reduce模型說Titan引擎“Titan-Hadoop”。我可以得到更詳細的介紹嗎?

  1. Titan 架構圖有助於顯示OLTP和OLAP使用之間的區別。 請參閱架構圖的右側:TinkerPop API - Gremlin。 無論您選擇哪種后端存儲(Cassandra,HBase,BerkeleyDB),OLTP都是Titan最常用的用法。 使用Titan-HBase進行OLTP查詢時,HDFS中不存儲任何內容。 實際上,對於使用Titan-HBase的OLTP,完全不需要HDFS / Hadoop。

  2. 在HBase中掃描Titan表的內容時,您將找到該圖的序列化表示。 Titan在鍵/列/值上使用數據壓縮技術,因此您會發現數據不是人類可讀的。 您可以在Titan文檔中閱讀有關存儲布局細節的更多信息。

  3. 請參閱#1的答案,您可能已經在運行OLTP查詢。 Hadoop風格的OLAP圖形處理通過圖形計算機完成。 它使用TitanHBaseInputFormat從后端存儲中讀取數據,然后使用TinkerPop圖形計算機( Spark或Giraph )來運行OLAP作業。 請參閱上面的架構圖的左側:GremlinGraphComputer。 Titan文檔中還有一些這方面的文檔

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM