簡體 English 中英

如果不使用 Map Reduce，Hive 3 上的 Hive ORC ACID 是否需要 TEZ？

[英]Does Hive ORC ACID on Hive 3 require TEZ if not using Map Reduce?

原文 2019-12-04 14:38:56 7 1 apache-spark/ hadoop/ hive/ orc/ acid

我的理解是，對於Hive 3 ，如果沒有使用 Map Reduce 或用於 Hive 的 Spark 引擎，則使用 MERGE 的 HIVE ORC ACID 表也至少需要 TEZ 作為底層執行引擎。 事實上，我不相信 HIVE MERGE MERGE、更新、刪除與 Spark 引擎一起工作。

但是從文檔和各種更新中我無法確認這些，因此發布了這篇文章。 似乎很難就這個主題寫出一套連貫的散文，而且我遠離集群。

而且，來自https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-version-release的斜體和粗體聲明說明了我無法遵循的完整事務功能，因為我不知道 SPARK 可以更新、刪除關於 HIVE ORC ACID（尚未）：

阿帕奇火花

Apache Spark 使用 Hive Warehouse Connector 獲取可更新的表和 ACID 事務。 Hive Warehouse Connector 允許您將 Hive 事務表注冊為 Spark 中的外部表，以訪問完整的事務功能。 以前的版本只支持表分區操作。 Hive Warehouse Connector 還支持流式數據幀，用於從 Spark 流式讀取和寫入事務和流式 Hive 表。

Spark 執行器可以直接連接到 Hive LLAP 守護進程，以事務方式檢索和更新數據，從而允許 Hive 保持對數據的控制。

HDInsight 4.0 上的 Apache Spark 支持以下方案：

在用於報告的同一事務表上運行機器學習模型訓練。 使用 ACID 事務將列從 Spark ML 安全地添加到 Hive 表。 對來自 Hive 流表的更改源運行 Spark 流作業。 直接從 Spark 結構化流作業創建 ORC 文件。 您不再需要擔心意外嘗試直接從 Spark 訪問 Hive 事務表，從而導致結果不一致、重復數據或數據損壞。 在 HDInsight 4.0 中，Spark 表和 Hive 表保存在不同的 Metastore 中。 使用 Hive 數據倉庫連接器將 Hive 事務表顯式注冊為 Spark 外部表。

1 個解決方案

上面加粗斜體的說法是不正確的。

https://issues.apache.org/jira/browse/SPARK-15348明確指出 Spark 不允許 HIVE ORC ACID 處理。

MR 正在各種雲平台上消失，現在 TEZ 是默認引擎，所以 sqoop 和 Hive ORC ACID 使用它，因此至少需要 TEZ。

注意：我只是在上次作業時才問這個問題，這個討論來自“樓上”的人。

在Tez上真的是Hive，ORC性能比用於ETL的Spark SQL更好嗎？

[英]Is really Hive on Tez with ORC performance better than Spark SQL for ETL?

如何使用 HANA SDA 虛擬表訪問 HIVE ACID 表？

[英]How to access HIVE ACID tables using HANA SDA Virtual table?

如何使用Scala更新一個ORC Hive表格

[英]How to Updata an ORC Hive table form Spark using Scala

Hive合並小ORC文件

[英]Hive Merge Small ORC Files

在不使用HIVE的情況下以ORC格式在HDFS中存儲Avro數據

[英]Storing avro data in ORC format in HDFS with out using HIVE

用Spark SQL和Hive寫同樣的ORC數據，為什么Spark SQL文件比hive大50%？

[英]Write same ORC data using Spark SQL and Hive, why Spark SQL file is 50% larger than hive？

Hive on Tez在Spark 2中不起作用

[英]Hive on Tez doesn't work in Spark 2

在pyspark中讀取Hive托管表的orc文件

[英]Reading orc file of Hive managed tables in pyspark

如何在spark中讀取orc事務hive表？

[英]how to read orc transaction hive table in spark?

分區的 ORC 表在 Hive 中顯示為空

[英]Partitioned ORC table shows up empty in Hive

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在Tez上真的是Hive，ORC性能比用於ETL的Spark SQL更好嗎？如何使用 HANA SDA 虛擬表訪問 HIVE ACID 表？如何使用Scala更新一個ORC Hive表格 Hive合並小ORC文件在不使用HIVE的情況下以ORC格式在HDFS中存儲Avro數據用Spark SQL和Hive寫同樣的ORC數據，為什么Spark SQL文件比hive大50%？ Hive on Tez在Spark 2中不起作用在pyspark中讀取Hive托管表的orc文件如何在spark中讀取orc事務hive表？分區的 ORC 表在 Hive 中顯示為空

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM