[英]PySpark is not able to read Hive ORC transaction table through sparkContext/hiveContext ? Can we update/delete hive table data using Pyspark?
我尝试使用PySpark访问Hive ORC事务表(在HDFS上具有基础增量文件),但无法通过sparkContext / hiveContext读取事务表。
/ mydim / delta_0117202_0117202
/ mydim / delta_0117203_0117203
Hive-ACID表正式不支持
Spark
,将酸表的full dump/incremental dump of acid table
到常规Hivehive orc/parquet
分区表,然后使用spark读取数据。
有一个开放的Jira saprk-15348 ,添加了对读取Hive ACID
表的支持。
如果您在Acid表(来自配置单元)上运行major compaction
,则spark只能读取base_XXX
目录,而不能读取delta目录Spark-16996,在此jira中已解决。
如本链接中所述,有一些解决方法可使用SPARK-LLAP读取酸表。
我认为从HDP-3.X
开始, HiveWareHouseConnector能够支持读取HiveAcid表。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.