[英]Spark dataset custom partitioner
您能否帮我找到Java API,用于将sales
数据集重新分配给N
个等大小的? 等大小我的意思是相等的行数。
Dataset<Row> sales = sparkSession.read().parquet(salesPath);
sales.toJavaRDD().partitions().size(); // returns 1
数据集不支持AFAIK自定义分区程序。 Spark 2+中的数据集和数据帧API的整体思想是抽象出需要干涉自定义分区程序。 因此,如果我们面临处理数据偏差的需要并且达到自定义分区器是唯一选项的程度,我想我们会去更低级别的RDD操作。
例如: Facebook用例研究和Spark峰会谈话与用例研究有关
为了定义RDD的分区程序,它在API文档中有详细记录
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.