簡體   English   中英

如果不使用 Map Reduce,Hive 3 上的 Hive ORC ACID 是否需要 TEZ?

[英]Does Hive ORC ACID on Hive 3 require TEZ if not using Map Reduce?

我的理解是,對於Hive 3 ,如果沒有使用 Map Reduce 或用於 Hive 的 Spark 引擎,則使用 MERGE 的 HIVE ORC ACID 表也至少需要 TEZ 作為底層執行引擎。 事實上,我不相信 HIVE MERGE MERGE、更新、刪除與 Spark 引擎一起工作。

但是從文檔和各種更新中我無法確認這些,因此發布了這篇文章。 似乎很難就這個主題寫出一套連貫的散文,而且我遠離集群。

而且,來自https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-version-release的斜體和粗體聲明說明了我無法遵循的完整事務功能,因為我不知道 SPARK 可以更新、刪除關於 HIVE ORC ACID(尚未):

阿帕奇火花

Apache Spark 使用 Hive Warehouse Connector 獲取可更新的表和 ACID 事務。 Hive Warehouse Connector 允許您將 Hive 事務表注冊為 Spark 中的外部表,以訪問完整的事務功能 以前的版本只支持表分區操作。 Hive Warehouse Connector 還支持流式數據幀,用於從 Spark 流式讀取和寫入事務和流式 Hive 表。

Spark 執行器可以直接連接到 Hive LLAP 守護進程,以事務方式檢索和更新數據,從而允許 Hive 保持對數據的控制。

HDInsight 4.0 上的 Apache Spark 支持以下方案:

在用於報告的同一事務表上運行機器學習模型訓練。 使用 ACID 事務將列從 Spark ML 安全地添加到 Hive 表。 對來自 Hive 流表的更改源運行 Spark 流作業。 直接從 Spark 結構化流作業創建 ORC 文件。 您不再需要擔心意外嘗試直接從 Spark 訪問 Hive 事務表,從而導致結果不一致、重復數據或數據損壞。 在 HDInsight 4.0 中,Spark 表和 Hive 表保存在不同的 Metastore 中。 使用 Hive 數據倉庫連接器將 Hive 事務表顯式注冊為 Spark 外部表。

上面加粗斜體的說法是不正確的。

https://issues.apache.org/jira/browse/SPARK-15348明確指出 Spark 不允許 HIVE ORC ACID 處理。

MR 正在各種雲平台上消失,現在 TEZ 是默認引擎,所以 sqoop 和 Hive ORC ACID 使用它,因此至少需要 TEZ。

注意:我只是在上次作業時才問這個問題,這個討論來自“樓上”的人。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM