Spark-SQl DataFrame分区

Question

我需要使用spark-sql加载Hive表，然后在其上运行一些机器学习算法。 我这样写：

val dataSet = sqlContext.sql(" select * from table")

它运作良好，但是如果我想增加dataSet Dataframe的分区数量，该怎么办？ 使用普通的RDD，我可以编写：

val dataSet = sc.textFile(" .... ", N )

我想拥有N个分区。

谢谢

Answer 1

您可以coalesce或repartition所得的DataFrame ，即：

val dataSet = sqlContext.sql(" select * from table").coalesce(N)