使用 Spark 和 Scala 的并行 API 请求

Question

我使用的是 Spark 2.4.0 和 Scala 2.11。 我有 Dataset[Users] ，当用户包括：(country,id,url)。 我想按国家/地区对此 DS 进行分组，并为每个组请求 URL，以获取有关该国家/地区用户的详细信息。

最好的方法是什么？ 使用地图分区？ foreach分区？ 谢谢

Answer 1

mapPartitions 和 foreachPartitition 用于 RDD。 现在 Dataset 也可以使用 mapPartitions。

通常，您应该在数据帧或数据集上使用 Spark DSL 或 Spark SQL API。 这些使用 Catalyst Optimizer 意味着更少的思考，它也可以在并行模式下工作。 Dataframe 的一个例子是，类似于 DataSet：

import org.apache.spark.sql.functions._
import spark.implicits._
//import org.apache.spark.sql._
//import org.apache.spark.sql.types._ 

val df = Seq(
 ("green","y", 4),
 ("blue","n", 7),
 ("red","y", 7),
 ("yellow","y", 7),
 ("cyan","y", 7)
          ).toDF("colour", "status", "freq")

val df2 = df.where("status = 'y'") 
            .select($"freq", $"colour")
            .groupBy("freq")
            .agg(collect_list($"colour"))

df2.show(false)

返回：

+----+--------------------+
|freq|collect_list(colour)|
+----+--------------------+
|4   |[green]             |
|7   |[red, yellow, cyan] |
+----+--------------------+

但是对于 RDD，您可以在 DS 上使用 mapPartitions。

使用 Spark 和 Scala 的并行 API 请求

问题描述

1 个解决方案

解决方案1
0 2019-01-06 23:04:51

使用 Spark 和 Scala 的并行 API 请求

问题描述

1 个解决方案

解决方案1 0 2019-01-06 23:04:51

解决方案1
0 2019-01-06 23:04:51