Spark-SQl DataFrame分區

Question

我需要使用spark-sql加載Hive表，然后在其上運行一些機器學習算法。 我這樣寫：

val dataSet = sqlContext.sql(" select * from table")

它運作良好，但是如果我想增加dataSet Dataframe的分區數量，該怎么辦？ 使用普通的RDD，我可以編寫：

val dataSet = sc.textFile(" .... ", N )

我想擁有N個分區。

謝謝

Answer 1

您可以coalesce或repartition所得的DataFrame ，即：

val dataSet = sqlContext.sql(" select * from table").coalesce(N)