繁体   English   中英

Spark-SQl DataFrame分区

[英]Spark-SQl DataFrame partitions

我需要使用spark-sql加载Hive表,然后在其上运行一些机器学习算法。 我这样写:

val dataSet = sqlContext.sql(" select * from table")

它运作良好,但是如果我想增加dataSet Dataframe的分区数量,该怎么办? 使用普通的RDD,我可以编写:

val dataSet = sc.textFile(" .... ", N )

我想拥有N个分区。

谢谢

您可以coalescerepartition所得的DataFrame ,即:

val dataSet = sqlContext.sql(" select * from table").coalesce(N)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM