通过子句参数化spark分区

Question

我正在尝试在现有的Hive分区表中插入DataFrame 。

我想通过分区列进行参数化，但是我当前的方法不起作用：

var partitioncolumn="\"deletion_flag\",\"date_feed\""
df.repartition(37).write.
  mode(SaveMode.Overwrite).
  partitionBy(partitioncolumn).
  insertInto("db.table_name")

我该如何进行这项工作？

Answer 1

由于partitionBy是用可变参数定义的：

def partitionBy(colNames: String*): DataFrameWriter[T]

它应该是：

var partitioncolumn= Seq("deletion_flag", "date_feed")
df.repartition(37).write.mode(SaveMode.Overwrite).partitionBy(
   partitioncolumn: _*
).insertInto("db.table_name")

您可以在其中提供列名的扩展列表。

Answer 2

partitionBy采用可变数量的参数（即String ）。

def partitionBy(colNames: String*): DataFrameWriter[T]
//                              ^ this stands for variadic arguments

在Scala中，您可以使用: _*传递后缀序列，以将其作为参数列表传递。

因此，您可以执行以下操作：

var partitioncolumn= Seq("deletion_flag", "date_feed")
df.repartition(37).write.
  mode(SaveMode.Overwrite).
  partitionBy(partitioncolumn: _*).
  insertInto("db.table_name")

在此问答中还介绍了传递序列作为可变参数。

通过子句参数化spark分区

问题描述

2 个解决方案

解决方案1
2 2018-01-31 12:07:04

解决方案2
0 已采纳 2018-01-31 12:09:25

通过子句参数化spark分区

问题描述

2 个解决方案

解决方案1 2 2018-01-31 12:07:04

解决方案2 0 已采纳 2018-01-31 12:09:25

解决方案1
2 2018-01-31 12:07:04

解决方案2
0 已采纳 2018-01-31 12:09:25