[英]Apache Spark: how to transform Data Frame column with regex to another Data Frame?
我有幾列的Spark Data Frame 1:(user_uuid,url,date_visit)
我想用以下形式將此DF1轉換為數據幀2:(user_uuid,domain,date_visit)
我想要使用的是正則表達式來檢測域並將其應用於DF1 val regexpr = """(?i)^((https?):\\/\\/)?((www|www1)\\.)?([\\w-\\.]+)""".r
你能幫我編寫代碼來轉換Scala中的數據框嗎? 我是Spark和Scala的新手,語法很難。 謝謝!
Spark> = 1.5 :
您可以使用regexp_extract
函數:
import org.apache.spark.sql.functions.regexp_extract
val patter: String = ???
val groupIdx: Int = ???
df.withColumn("domain", regexp_extract(url, pattern, groupIdx))
Spark <1.5.0
定義UDF
val pattern: scala.util.matching.Regex = ???
def getFirst(pattern: scala.util.matching.Regex) = udf(
(url: String) => pattern.findFirstIn(url) match {
case Some(domain) => domain
case None => "unknown"
}
)
使用定義的UDF:
df.select(
$"user_uuid",
getFirst(pattern)($"url").alias("domain"),
$"date_visit"
)
或者注冊臨時表:
df.registerTempTable("df")
sqlContext.sql(s"""
SELECT user_uuid, regexp_extract(url, '$pattern', $group_idx) AS domain, date_visit FROM df""")
將pattern
替換為有效的Java regexp,將group_id
替換為組的索引。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.