如何使用Scala过滤Spark的DataFrame数组

Question

我是Scala的初学者。

我有2列的数据框：

第一个是日期，第二个是单词数组。

created_at:string
words:array
    element:string

我只想保留以“＃”开头的单词

我更喜欢在分解数组之前进行过滤，因为大多数单词不是以“＃”开头

我没有找到修改数组列和应用类似filter（_。startsWith（“＃”））之类的方法。

可能吗？ 如何？

谢谢

皮埃尔

Answer 1

您可以创建一个简单的UDF来从数组列中过滤掉不需要的单词：

val df = Seq(
  ("2018-05-01", Seq("a", "#b", "c")),
  ("2018-05-02", Seq("#d", "#e", "f"))
).toDF("created_at", "words")

def filterArray = udf( (s: Seq[String]) =>
  s.filterNot(_.startsWith("#"))
)

df.select($"created_at", filterArray($"words")).show
// +----------+----------+
// |created_at|UDF(words)|
// +----------+----------+
// |2018-05-01|    [a, c]|
// |2018-05-02|       [f]|
// +----------+----------+

Answer 2

试试这个：

import org.apache.spark.sql.functions._ 

df.select(explode(col("words")).as("word"), col("created_at")).
       where("word LIKE '#%'").
       groupBy(col("created_at")).
       agg(collect_set(col("word")).as("words")).
       show

如何使用Scala过滤Spark的DataFrame数组

问题描述

2 个解决方案

解决方案1
3 已采纳 2018-05-16 22:22:18

解决方案2
0 2018-05-17 02:16:34

如何使用Scala过滤Spark的DataFrame数组

问题描述

2 个解决方案

解决方案1 3 已采纳 2018-05-16 22:22:18

解决方案2 0 2018-05-17 02:16:34

解决方案1
3 已采纳 2018-05-16 22:22:18

解决方案2
0 2018-05-17 02:16:34