Apache Spark：如何将带有正则表达式的数据框列转换为另一个数据框？

Question

I have Spark Data Frame 1 of several columns: (user_uuid, url, date_visit) 我有几列的Spark Data Frame 1：（user_uuid，url，date_visit）

I want to transform this DF1 to Data Frame 2 with form : (user_uuid, domain, date_visit) 我想用以下形式将此DF1转换为数据帧2：（user_uuid，domain，date_visit）

What I wanted to use is regular expression to detect domain and apply it to DF1 val regexpr = """(?i)^((https?):\\/\\/)?((www|www1)\\.)?([\\w-\\.]+)""".r 我想要使用的是正则表达式来检测域并将其应用于DF1 val regexpr = """(?i)^((https?):\\/\\/)?((www|www1)\\.)?([\\w-\\.]+)""".r

Could you please help me composing code to transform Data Frames in Scala? 你能帮我编写代码来转换Scala中的数据框吗？ I am completely new to Spark and Scala and syntax is hard. 我是Spark和Scala的新手，语法很难。 Thanks! 谢谢！

Answer 1

Spark >= 1.5 : Spark> = 1.5 ：

You can use regexp_extract function: 您可以使用regexp_extract函数：

import org.apache.spark.sql.functions.regexp_extract

val patter: String = ??? 
val groupIdx: Int = ???

df.withColumn("domain", regexp_extract(url, pattern, groupIdx))

Spark < 1.5.0 Spark <1.5.0

Define an UDF 定义UDF

val pattern: scala.util.matching.Regex = ???

def getFirst(pattern: scala.util.matching.Regex) = udf(
  (url: String) => pattern.findFirstIn(url) match { 
    case Some(domain) => domain
    case None => "unknown"
  }
)

Use defined UDF: 使用定义的UDF：

df.select(
  $"user_uuid",
  getFirst(pattern)($"url").alias("domain"),
  $"date_visit"
)

or register temp table: 或者注册临时表：

df.registerTempTable("df")

sqlContext.sql(s"""
  SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")

Replace pattern with a valid Java regexp and group_id with an index of the group. 将pattern替换为有效的Java regexp，将group_id替换为组的索引。

Apache Spark：如何将带有正则表达式的数据框列转换为另一个数据框？

问题描述

1 个解决方案

解决方案1
15 已采纳 2015-08-20 15:33:11

Apache Spark：如何将带有正则表达式的数据框列转换为另一个数据框？

问题描述

1 个解决方案

解决方案1 15 已采纳 2015-08-20 15:33:11

解决方案1
15 已采纳 2015-08-20 15:33:11