在 Spark-Scala 中将 Dataset[Row] 转换为 RDD[Array[String]] 的最佳方法？

Question

我正在通过读取 csv 文件来创建火花数据集。 此外，我需要将此 Dataset[Row] 转换为 RDD[Array[String]] 以将其传递给 FpGrowth(Spark MLLIB)。

val df: DataFrame = spark.read.format("csv").option("header", "true").load("/path/to/csv")
val ds: Dataset[Row] = df.groupBy("user").agg(collect_set("values"))

现在，我需要 select 列“值”并将结果数据集转换为RDD[Array[String]] 。

val rddS: RDD[String] = ds.select(concat_ws(",", col("values")).as("items")).distinct().rdd.map(_.mkString(","))
val rddArray: RDD[Array[String]] = rddS.map(s => s.trim.split(','))

我尝试了这种方法，但不确定它是否是最好的方法。 请建议我实现这一目标的最佳方法。

Answer 1

单线：

val rddArray: RDD[Array[String]] = ds.select("values").as[Array[String]].rdd

顺便说一句，我建议使用基于数据帧的 Spark ML，而不是现在已弃用的基于 RDD 的 Spark MLLib。 您可以使用org.apache.spark.ml.fpm.FPGrowth 。

Answer 2

我最终使用了 toSeq 方法

val rddArray: RDD[Array[String]] = ds.select("values").rdd.map(r => r.getSeq[String](0).toArray)

这对我的用例来说更有效（更快）。

Answer 3

为什么不简单地使用如下，你会减少concat_ws和split操作。

val rddS:RDD[Array[String]] = ds.select("values")
    .distinct()
    .rdd.map(r => r.getAs[mutable.WrappedArray[String]](0).toArray)

在 Spark-Scala 中将 Dataset[Row] 转换为 RDD[Array[String]] 的最佳方法？

问题描述

3 个解决方案

解决方案1
5 2021-01-08 09:09:24

解决方案2
1 已采纳 2021-01-10 00:16:19

解决方案3
0 2021-01-08 09:08:21

在 Spark-Scala 中将 Dataset[Row] 转换为 RDD[Array[String]] 的最佳方法？

问题描述

3 个解决方案

解决方案1 5 2021-01-08 09:09:24

解决方案2 1 已采纳 2021-01-10 00:16:19

解决方案3 0 2021-01-08 09:08:21

解决方案1
5 2021-01-08 09:09:24

解决方案2
1 已采纳 2021-01-10 00:16:19

解决方案3
0 2021-01-08 09:08:21