![](/img/trans.png)
[英]Spark - Hive UDF is working with Spark-SQL but not with DataFrame
[英]Spark-SQl DataFrame partitions
我需要使用spark-sql加載Hive表,然后在其上運行一些機器學習算法。 我這樣寫:
val dataSet = sqlContext.sql(" select * from table")
它運作良好,但是如果我想增加dataSet Dataframe的分區數量,該怎么辦? 使用普通的RDD,我可以編寫:
val dataSet = sc.textFile(" .... ", N )
我想擁有N個分區。
謝謝
您可以coalesce
或repartition
所得的DataFrame
,即:
val dataSet = sqlContext.sql(" select * from table").coalesce(N)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.