![](/img/trans.png)
[英]Spark - Hive UDF is working with Spark-SQL but not with DataFrame
[英]Spark-SQl DataFrame partitions
我需要使用spark-sql加载Hive表,然后在其上运行一些机器学习算法。 我这样写:
val dataSet = sqlContext.sql(" select * from table")
它运作良好,但是如果我想增加dataSet Dataframe的分区数量,该怎么办? 使用普通的RDD,我可以编写:
val dataSet = sc.textFile(" .... ", N )
我想拥有N个分区。
谢谢
您可以coalesce
或repartition
所得的DataFrame
,即:
val dataSet = sqlContext.sql(" select * from table").coalesce(N)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.