簡體   English   中英

Spark-SQl DataFrame分區

[英]Spark-SQl DataFrame partitions

我需要使用spark-sql加載Hive表,然后在其上運行一些機器學習算法。 我這樣寫:

val dataSet = sqlContext.sql(" select * from table")

它運作良好,但是如果我想增加dataSet Dataframe的分區數量,該怎么辦? 使用普通的RDD,我可以編寫:

val dataSet = sc.textFile(" .... ", N )

我想擁有N個分區。

謝謝

您可以coalescerepartition所得的DataFrame ,即:

val dataSet = sqlContext.sql(" select * from table").coalesce(N)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM