Spark HiveContext：插入覆盖从中读取的同一表

Question

我想在HiveContext中使用PySpark来应用SCD1和SCD2。 在我的方法中，我正在读取增量数据和目标表。 阅读后，我将加入他们的进阶方法。 我正在对所有源数据帧执行registerTempTable。 我正在尝试将最终数据集写入目标表，并且面临一个问题，即从读取表中无法进行插入覆盖。

请为此提出一些解决方案。 我不想将中间数据写入物理表并再次读取。

是否有任何属性或方法可以存储最终数据集，而又不保留对其读取表的依赖性。 这样，可能会覆盖表。

请提出建议。

Answer 1

您永远不应覆盖正在读取的表。 在发生故障的情况下，这可能会导致数据损坏到数据完全丢失。

同样重要的是要指出，正确实现的SCD2永远都不应覆盖整个表，而可以将其实现为（主要是）附加操作。 据我所知，没有可变存储就无法有效地实现SCD1，因此它不太适合Spark。

Answer 2

当我检查Spark的文档时，当我检查那里的一个物业时，一个念头响了起来。

由于我的桌子是镶木地板，因此我使用蜂巢元存储通过将此属性设置为false来读取数据。

hiveContext.conf("spark.sql.hive.convertMetastoreParquet","false")

这个解决方案对我来说很好。

Answer 3

DataFrame不允许插入覆盖到相同的位置或相同的表，您可以使用下面的选项来解决您的问题。

在spark / hivecontext上运行Hive插入覆盖查询，但是如果作业失败数据失败，则会在该分区上损坏该问题，因此请务必小心。
作业完成后，其他选项保存到Temp表中，覆盖到目标表中。
如果仍要以编程方式使用，则可以将数据帧保存在tmp位置，并使用HDFS I / O移至目标分区位置

Spark HiveContext：插入覆盖从中读取的同一表

问题描述

3 个解决方案

解决方案1
2 2017-09-10 19:02:35

解决方案2
1 已采纳 2017-09-13 16:15:15

解决方案3
-1 2018-02-02 21:53:52

Spark HiveContext：插入覆盖从中读取的同一表

问题描述

3 个解决方案

解决方案1 2 2017-09-10 19:02:35

解决方案2 1 已采纳 2017-09-13 16:15:15

解决方案3 -1 2018-02-02 21:53:52

解决方案1
2 2017-09-10 19:02:35

解决方案2
1 已采纳 2017-09-13 16:15:15

解决方案3
-1 2018-02-02 21:53:52