繁体 English 中英

PySpark无法通过sparkContext / hiveContext读取Hive ORC事务表？我们可以使用Pyspark更新/删除配置单元表数据吗？

[英]PySpark is not able to read Hive ORC transaction table through sparkContext/hiveContext ? Can we update/delete hive table data using Pyspark?

原文 2019-08-01 14:57:55 2 1 apache-spark/ hadoop/ hive/ pyspark/ pyspark-sql

我尝试使用PySpark访问Hive ORC事务表（在HDFS上具有基础增量文件），但无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

1 个解决方案

Hive-ACID表正式不支持Spark ，将酸表的full dump/incremental dump of acid table到常规Hive hive orc/parquet分区表，然后使用spark读取数据。

有一个开放的Jira saprk-15348 ，添加了对读取Hive ACID表的支持。

如果您在Acid表（来自配置单元）上运行major compaction ，则spark只能读取base_XXX目录，而不能读取delta目录Spark-16996，在此jira中已解决。
如本链接中所述，有一些解决方法可使用SPARK-LLAP读取酸表。
我认为从HDP-3.X开始， HiveWareHouseConnector能够支持读取HiveAcid表。

如何在spark中读取orc事务hive表？

[英]how to read orc transaction hive table in spark?

Pyspark + Hive avro表

[英]Pyspark + Hive avro table

如何通过pyspark读取配置单元分区表

[英]How to read hive partitioned table via pyspark

Pyspark - 定期从增量配置单元表中读取

[英]Pyspark - read periodically from an incremental hive table

无法找到pyspark数据帧保存到hive表

[英]pyspark dataframe save to hive table can not be found

我如何使用 pyspark 显示 hive 表

[英]How can i show hive table using pyspark

使用 pyspark 创建外部 Hive 表

[英]Create External Hive table using pyspark

使用 Pyspark 检查 hive Metastore 中是否存在表

[英]Check if table exists in hive metastore using Pyspark

使用Spark Scala将数据插入HiveContext的Hive表中

[英]Insert data into a Hive table with HiveContext using Spark Scala

无法使用HiveContext将数据追加到现有的Hive表中

[英]Unable to append data into existing hive table with HiveContext

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何在spark中读取orc事务hive表？ Pyspark + Hive avro表如何通过pyspark读取配置单元分区表 Pyspark - 定期从增量配置单元表中读取无法找到pyspark数据帧保存到hive表我如何使用 pyspark 显示 hive 表使用 pyspark 创建外部 Hive 表使用 Pyspark 检查 hive Metastore 中是否存在表使用Spark Scala将数据插入HiveContext的Hive表中无法使用HiveContext将数据追加到现有的Hive表中

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM