如何使用Scala在Spark Dataframes中比較兩列數據

Question

我想比較Spark DataFrame兩列：如果在另一個（ attr_valuelist ）的值中找到一列（ attr_value ）的值，我只希望保留該值。 否則，列值應為null 。

例如，給定以下輸入

id1 id2   attrname  attr_value   attr_valuelist
1   2     test      Yes          Yes, No
2   1     test1     No           Yes, No
3   2     test2     value1       val1, Value1,value2

我期望以下輸出

id1 id2   attrname  attr_value   attr_valuelist
1   2     test      Yes          Yes
2   1     test1     No           No
3   2     test2     value1       Value1

Answer 1

你可以試試這個代碼。 我認為它將與包含時的SQL一起使用。

val emptyRDD = sc.emptyRDD[Row] 

var emptyDataframe = sqlContext.createDataFrame(emptyRDD, your_dataframe.schema)

your_dataframe.createOrReplaceTempView("tbl")  

emptyDataframe = sqlContext.sql("select id1, id2, attrname, attr_value, case when
attr_valuelist like concat('%', attr_value, '%') then attr_value else
null end as attr_valuelist from tbl") 

emptyDataframe.show

Answer 2

我假定給定您的示例輸入，包含搜索項的列包含一個字符串，而搜索目標是一個字符串序列。 另外，我假設您對不區分大小寫的搜索感興趣。

這將作為輸入（我添加了一個會產生null以測試我編寫的UDF行為的列）：

+---+---+--------+----------+----------------------+
|id1|id2|attrname|attr_value|attr_valuelist        |
+---+---+--------+----------+----------------------+
|1  |2  |test    |Yes       |[Yes, No]             |
|2  |1  |test1   |No        |[Yes, No]             |
|3  |2  |test2   |value1    |[val1, Value1, value2]|
|3  |2  |test2   |value1    |[val1, value2]        |
+---+---+--------+----------+----------------------+

您可以使用非常簡單的UDF解決您的問題。

val find = udf {
  (item: String, collection: Seq[String]) =>
    collection.find(_.toLowerCase == item.toLowerCase)
}

val df = spark.createDataFrame(Seq(
  (1, 2, "test", "Yes", Seq("Yes", "No")),
  (2, 1, "test1", "No", Seq("Yes", "No")),
  (3, 2, "test2", "value1", Seq("val1", "Value1", "value2")),
  (3, 2, "test2", "value1", Seq("val1", "value2"))
)).toDF("id1", "id2", "attrname", "attr_value", "attr_valuelist")

df.select(
  $"id1", $"id2", $"attrname", $"attr_value",
  find($"attr_value", $"attr_valuelist") as "attr_valuelist")

show最后一條命令的輸出將產生以下輸出：

+---+---+--------+----------+--------------+
|id1|id2|attrname|attr_value|attr_valuelist|
+---+---+--------+----------+--------------+
|  1|  2|    test|       Yes|           Yes|
|  2|  1|   test1|        No|            No|
|  3|  2|   test2|    value1|        Value1|
|  3|  2|   test2|    value1|          null|
+---+---+--------+----------+--------------+

您可以在任何spark-shell執行此代碼。 如果要在要提交給集群的作業中使用它，請記住import spark.implicits._ 。

如何使用Scala在Spark Dataframes中比較兩列數據

問題描述

2 個解決方案

解決方案1
1 2018-07-20 07:56:44

解決方案2
1 2018-07-20 08:36:57

如何使用Scala在Spark Dataframes中比較兩列數據

問題描述

2 個解決方案

解決方案1 1 2018-07-20 07:56:44

解決方案2 1 2018-07-20 08:36:57

解決方案1
1 2018-07-20 07:56:44

解決方案2
1 2018-07-20 08:36:57