簡體   English   中英

如何訪問 Spark sql 中的 HIVE ACID 表?

[英]How to access the HIVE ACID table in Spark sql?

您如何在 Spark sql 中訪問 HIVE ACID 表?

我們已經開發並開源了一個數據源,該數據源將使用戶能夠使用 Spark 處理他們的 Hive ACID 事務表。

Github: https : //github.com/qubole/spark-acid

它以 Spark 包的形式提供,使用說明位於 Github 頁面上。 目前數據源僅支持從 Hive ACID 表中讀取,我們正在努力添加通過 Spark 寫入這些表的功能。

歡迎反饋和建議!

@aniket Spark 不支持直接讀取 Hive Acid 表。 ( https://issues.apache.org/jira/browse/SPARK-15348/SPARK-16996 ) 事務表的數據布局需要特殊的邏輯來決定讀取哪些目錄以及如何正確組合它們。 例如,一些數據文件可能代表先前寫入的行的更新。 此外,如果您正在讀取此表的內容,則您的讀取可能會失敗(沒有特殊邏輯),因為它會嘗試讀取不完整的 ORC 文件。 壓縮可能(同樣沒有特殊邏輯)可能會使您的數據看起來像是重復的。 它可以通過 LLAP 完成(WIP) - 在https://issues.apache.org/jira/browse/HIVE-12991 中跟蹤

我遇到了同樣的問題(Hive 酸表的 Spark),我可以通過 Spark 的 JDBC 調用進行管理。 可能我可以從 spark 使用這個 JDBC 調用,直到我們從 Spark 獲得本機 ACID 支持。

https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

至少從 spark 2.3.2 開始,Spark 可以直接讀取酸表。 但我也可以確認它無法在 spark 2.2.0 中讀取酸表。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM