遍歷Spark 1.6中的分組數據集

Question

在有序數據集中，我想聚合數據直到滿足條件，但要按特定鍵分組。

為了給我的問題設置背景，我將問題簡化為以下問題陳述：

在spark中，我需要聚合字符串，當用戶停止“喊”（按字符串中的第二個字符不是大寫）時，按鍵分組。

數據集示例：

ID, text, timestamps

1, "OMG I like bananas", 123
1, "Bananas are the best", 234
1, "MAN I love banana", 1235
2, "ORLY? I'm more into grapes", 123565
2, "BUT I like apples too", 999
2, "unless you count veggies", 9999
2, "THEN don't forget tomatoes", 999999

預期結果將是：

1, "OMG I like bananas Bananas are the best"
2, "ORLY? I'm more into grapes BUT I like apples too unless you count veggies"

通過groupby和agg我似乎無法將條件設置為“發現大寫字符時停止”。

Answer 1

僅在Spark 2.1或更高版本中有效

您想做的事是可能的，但它可能會非常昂貴。

首先，讓我們創建一些測試數據。 作為一般建議，當您在Stackoverflow上提問時，請提供與此類似的內容，以便人們有所作為。

import spark.sqlContext.implicits._
import org.apache.spark.sql.functions._

val df = List(
    (1,  "OMG I like bananas", 1),
    (1, "Bananas are the best", 2),
    (1, "MAN I love banana", 3),
    (2, "ORLY? I'm more into grapes", 1),
    (2, "BUT I like apples too", 2),
    (2, "unless you count veggies", 3),
    (2, "THEN don't forget tomatoes", 4)
).toDF("ID", "text", "timestamps")

為了獲得一個按順序排列有收集文本的列，我們需要使用window函數添加一個新列。

使用spark殼：

scala> val df2 = df.withColumn("coll", collect_list("text").over(Window.partitionBy("id").orderBy("timestamps")))
df2: org.apache.spark.sql.DataFrame = [ID: int, text: string ... 2 more fields]

scala> val x = df2.groupBy("ID").agg(max($"coll").as("texts"))
x: org.apache.spark.sql.DataFrame = [ID: int, texts: array<string>]

scala> x.collect.foreach(println)
[1,WrappedArray(OMG I like bananas, Bananas are the best, MAN I love banana)]
[2,WrappedArray(ORLY? I'm more into grapes, BUT I like apples too, unless you count veggies, THEN don't forget tomatoes)]

為了獲得實際的文本，我們可能需要一個UDF。 這是我的（我距離Scala的專家還很遠，所以請多多包涵）

import scala.collection.mutable

val aggText: Seq[String] => String = (list: Seq[String]) => {
    def tex(arr: Seq[String], accum: Seq[String]): Seq[String] = arr match {
        case Seq() => accum
        case Seq(single) => accum :+ single
        case Seq(str, xs @_*) => if (str.length >= 2 && !(str.charAt(0).isUpper && str.charAt(1).isUpper))
            tex(Nil, accum :+ str )
        else
            tex(xs, accum :+ str)
    }

    val res = tex(list, Seq())
    res.mkString(" ")
}

val textUDF = udf(aggText(_: mutable.WrappedArray[String]))

因此，我們有一個數據框，其中包含以正確順序收集的文本，以及一個Scala函數（包裝為UDF）。 讓我們拼湊一下：

scala> val x = df2.groupBy("ID").agg(max($"coll").as("texts"))
x: org.apache.spark.sql.DataFrame = [ID: int, texts: array<string>]

scala> val y = x.select($"ID", textUDF($"texts"))
y: org.apache.spark.sql.DataFrame = [ID: int, UDF(texts): string]

scala> y.collect.foreach(println)
[1,OMG I like bananas Bananas are the best]
[2,ORLY? I'm more into grapes BUT I like apples too unless you count veggies]

scala>

我認為這是您想要的結果。

遍歷Spark 1.6中的分組數據集

問題描述

1 個解決方案

解決方案1
2 已采納 2019-02-20 21:19:42

遍歷Spark 1.6中的分組數據集

問題描述

1 個解決方案

解決方案1 2 已采納 2019-02-20 21:19:42

解決方案1
2 已采納 2019-02-20 21:19:42