繁体 English 中英

如何访问 Spark sql 中的 HIVE ACID 表？

[英]How to access the HIVE ACID table in Spark sql?

原文 2018-11-07 23:18:48 9 4 scala/ apache-spark-sql/ hiveql/ pyspark-sql

您如何在 Spark sql 中访问 HIVE ACID 表？

4 个解决方案

我们已经开发并开源了一个数据源，该数据源将使用户能够使用 Spark 处理他们的 Hive ACID 事务表。

Github： https : //github.com/qubole/spark-acid

它以 Spark 包的形式提供，使用说明位于 Github 页面上。 目前数据源仅支持从 Hive ACID 表中读取，我们正在努力添加通过 Spark 写入这些表的功能。

欢迎反馈和建议！

@aniket Spark 不支持直接读取 Hive Acid 表。 ( https://issues.apache.org/jira/browse/SPARK-15348/SPARK-16996 ) 事务表的数据布局需要特殊的逻辑来决定读取哪些目录以及如何正确组合它们。 例如，一些数据文件可能代表先前写入的行的更新。 此外，如果您正在读取此表的内容，则您的读取可能会失败（没有特殊逻辑），因为它会尝试读取不完整的 ORC 文件。 压缩可能（同样没有特殊逻辑）可能会使您的数据看起来像是重复的。 它可以通过 LLAP 完成（WIP） - 在https://issues.apache.org/jira/browse/HIVE-12991 中跟踪

我遇到了同样的问题（Hive 酸表的 Spark），我可以通过 Spark 的 JDBC 调用进行管理。 可能我可以从 spark 使用这个 JDBC 调用，直到我们从 Spark 获得本机 ACID 支持。

https://github.com/Gowthamsb12/Spark/blob/master/Spark_ACID

至少从 spark 2.3.2 开始，Spark 可以直接读取酸表。 但我也可以确认它无法在 spark 2.2.0 中读取酸表。

INSERT SPARK DATAFRAME INTO HIVE Managed Acid Table 不工作，HDP 3.0

[英]INSERT SPARK DATAFRAME INTO HIVE Managed Acid Table not working, HDP 3.0

如何使用Spark-Sql有效读取Hive表

[英]How to read Hive Table with Spark-Sql efficiently

如何使用 Spark 读取 Hive 表

[英]How to read Hive table with Spark

读取 SPARK SQL 中的分区 HIVE 表

[英]Reading Partitioned HIVE table in SPARK SQL

如何使用Spark访问Hive数据

[英]How to access hive data using spark

如何访问Hive中的现有表？

[英]How to access existing table in Hive?

如何将Spark DataFrame插入Hive内部表？

[英]How to insert Spark DataFrame to Hive Internal table?

如何使用Hive上下文有效地在Spark中查询Hive表？

[英]How to efficiently query a hive table in spark using hive context?

如何从像过滤器这样的spark api中找到传递给hive表的sql字符串

[英]how to find the sql string being passed to hive table from spark apis like filter

Spark 分区 Hive 表

[英]Spark Partitioning Hive Table

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 INSERT SPARK DATAFRAME INTO HIVE Managed Acid Table 不工作，HDP 3.0 如何使用Spark-Sql有效读取Hive表如何使用 Spark 读取 Hive 表读取 SPARK SQL 中的分区 HIVE 表如何使用Spark访问Hive数据如何访问Hive中的现有表？如何将Spark DataFrame插入Hive内部表？如何使用Hive上下文有效地在Spark中查询Hive表？如何从像过滤器这样的spark api中找到传递给hive表的sql字符串 Spark 分区 Hive 表

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM