繁体   English   中英

PySpark无法通过sparkContext / hiveContext读取Hive ORC事务表? 我们可以使用Pyspark更新/删除配置单元表数据吗?

[英]PySpark is not able to read Hive ORC transaction table through sparkContext/hiveContext ? Can we update/delete hive table data using Pyspark?

我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但无法通过sparkContext / hiveContext读取事务表。

/ mydim / delta_0117202_0117202

/ mydim / delta_0117203_0117203

Hive-ACID表正式不支持Spark ,将表的full dump/incremental dump of acid table到常规Hive hive orc/parquet分区表,然后使用spark读取数据。

有一个开放的Jira saprk-15348 ,添加了对读取Hive ACID表的支持。

  • 如果您在Acid表(来自配置单元)上运行major compaction ,则spark只能读取base_XXX目录,而不能读取delta目录Spark-16996,在此jira中已解决。

  • 如本链接中所述,有一些解决方法可使用SPARK-LLAP读取酸表。

  • 我认为HDP-3.X开始, HiveWareHouseConnector能够支持读取HiveAcid表。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM