比較兩個數據幀 Pyspark

Question

我正在嘗試比較兩個具有相同列數的數據框，即 4 列的 id 作為兩個數據框中的關鍵列

df1 = spark.read.csv("/path/to/data1.csv")
df2 = spark.read.csv("/path/to/data2.csv")

現在我想將新列附加到 DF2，即 column_names，它是值與 df1 不同的列的列表

df2.withColumn("column_names",udf())

DF1

+------+---------+--------+------+
|   id | |name  | sal  | Address |
+------+---------+--------+------+
|     1|  ABC   | 5000 | US      |
|     2|  DEF   | 4000 | UK      |
|     3|  GHI   | 3000 | JPN     |
|     4|  JKL   | 4500 | CHN     |
+------+---------+--------+------+

DF2：

+------+---------+--------+------+
|   id | |name  | sal  | Address |
+------+---------+--------+------+
|     1|  ABC   | 5000 | US      |
|     2|  DEF   | 4000 | CAN     |
|     3|  GHI   | 3500 | JPN     |
|     4|  JKL_M | 4800 | CHN     |
+------+---------+--------+------+

現在我想要DF3

DF3：

+------+---------+--------+------+--------------+
|   id | |name  | sal  | Address | column_names |
+------+---------+--------+------+--------------+
|     1|  ABC   | 5000 | US      |  []          |
|     2|  DEF   | 4000 | CAN     |  [address]   |
|     3|  GHI   | 3500 | JPN     |  [sal]       |
|     4|  JKL_M | 4800 | CHN     |  [name,sal]  |
+------+---------+--------+------+--------------+

我看到了這個問題， How to compare two dataframe and print columns that are different in scala . 試過了，結果不一樣。

我正在考慮通過將每個數據幀中的行傳遞給 udf 並逐列比較並返回列列表來使用 UDF 函數。 然而，這兩個數據幀都應該按順序排列，以便將相同的 id 行發送到 udf。 排序在這里是代價高昂的操作。 有什么解決辦法嗎？

Answer 1

假設我們可以使用 id 來連接這兩個數據集，我認為不需要 UDF。 這可以通過使用內部連接、數組和array_remove 等函數來解決。

首先讓我們創建兩個數據集：

df1 = spark.createDataFrame([
  [1, "ABC", 5000, "US"],
  [2, "DEF", 4000, "UK"],
  [3, "GHI", 3000, "JPN"],
  [4, "JKL", 4500, "CHN"]
], ["id", "name", "sal", "Address"])

df2 = spark.createDataFrame([
  [1, "ABC", 5000, "US"],
  [2, "DEF", 4000, "CAN"],
  [3, "GHI", 3500, "JPN"],
  [4, "JKL_M", 4800, "CHN"]
], ["id", "name", "sal", "Address"])

首先我們在兩個數據集之間進行內部連接，然后我們為除id之外的每一列生成條件df1[col] != df2[col] 。 當列不相等時，我們返回列名，否則返回一個空字符串。 條件列表將由數組的項組成，最后我們從中刪除空項：

from pyspark.sql.functions import col, array, when, array_remove

# get conditions for all columns except id
conditions_ = [when(df1[c]!=df2[c], lit(c)).otherwise("") for c in df1.columns if c != 'id']

select_expr =[
                col("id"), 
                *[df2[c] for c in df2.columns if c != 'id'], 
                array_remove(array(*conditions_), "").alias("column_names")
]

df1.join(df2, "id").select(*select_expr).show()

# +---+-----+----+-------+------------+
# | id| name| sal|Address|column_names|
# +---+-----+----+-------+------------+
# |  1|  ABC|5000|     US|          []|
# |  3|  GHI|3500|    JPN|       [sal]|
# |  2|  DEF|4000|    CAN|   [Address]|
# |  4|JKL_M|4800|    CHN| [name, sal]|
# +---+-----+----+-------+------------+

Answer 2

Python：我之前的 Scala 代碼的 PySpark 版本。

import pyspark.sql.functions as f

df1 = spark.read.option("header", "true").csv("test1.csv")
df2 = spark.read.option("header", "true").csv("test2.csv")

columns = df1.columns
df3 = df1.alias("d1").join(df2.alias("d2"), f.col("d1.id") == f.col("d2.id"), "left")

for name in columns:
    df3 = df3.withColumn(name + "_temp", f.when(f.col("d1." + name) != f.col("d2." + name), f.lit(name)))


df3.withColumn("column_names", f.concat_ws(",", *map(lambda name: f.col(name + "_temp"), columns))).select("d1.*", "column_names").show()

Scala：這是我解決您問題的最佳方法。

val df1 = spark.read.option("header", "true").csv("test1.csv")
val df2 = spark.read.option("header", "true").csv("test2.csv")

val columns = df1.columns
val df3 = df1.alias("d1").join(df2.alias("d2"), col("d1.id") === col("d2.id"), "left")

columns.foldLeft(df3) {(df, name) => df.withColumn(name + "_temp", when(col("d1." + name) =!= col("d2." + name), lit(name)))}
  .withColumn("column_names", concat_ws(",", columns.map(name => col(name + "_temp")): _*))
  .show(false)

首先，我將兩個數據幀加入df3並使用來自df1的列。 當df1和df2具有相同的id和其他列值時，通過使用具有列名稱值的臨時列向左折疊到df3 。

之后，這些列名的concat_ws和空值都消失了，只剩下列名。

+---+----+----+-------+------------+
|id |name|sal |Address|column_names|
+---+----+----+-------+------------+
|1  |ABC |5000|US     |            |
|2  |DEF |4000|UK     |Address     |
|3  |GHI |3000|JPN    |sal         |
|4  |JKL |4500|CHN    |name,sal    |
+---+----+----+-------+------------+

與您的預期結果唯一不同的是輸出不是列表而是字符串。

ps 我忘記使用 PySpark 但這是正常的火花，抱歉。

Answer 3

這是您使用UDF的解決方案，我已經動態更改了第一個dataframe名稱，以便在檢查過程中不會出現歧義。 通過下面的代碼，如果有任何問題，請告訴我。

>>> from pyspark.sql.functions import *
>>> df.show()
+---+----+----+-------+
| id|name| sal|Address|
+---+----+----+-------+
|  1| ABC|5000|     US|
|  2| DEF|4000|     UK|
|  3| GHI|3000|    JPN|
|  4| JKL|4500|    CHN|
+---+----+----+-------+

>>> df1.show()
+---+----+----+-------+
| id|name| sal|Address|
+---+----+----+-------+
|  1| ABC|5000|     US|
|  2| DEF|4000|    CAN|
|  3| GHI|3500|    JPN|
|  4|JKLM|4800|    CHN|
+---+----+----+-------+

>>> df2 = df.select([col(c).alias("x_"+c) for c in df.columns])
>>> df3 = df1.join(df2, col("id") == col("x_id"), "left")

 //udf declaration 

>>> def CheckMatch(Column,r):
...     check=''
...     ColList=Column.split(",")
...     for cc in ColList:
...             if(r[cc] != r["x_" + cc]):
...                     check=check + "," + cc
...     return check.replace(',','',1).split(",")

>>> CheckMatchUDF = udf(CheckMatch)

//final column that required to select
>>> finalCol = df1.columns
>>> finalCol.insert(len(finalCol), "column_names")

>>> df3.withColumn("column_names", CheckMatchUDF(lit(','.join(df1.columns)),struct([df3[x] for x in df3.columns])))
       .select(finalCol)
       .show()
+---+----+----+-------+------------+
| id|name| sal|Address|column_names|
+---+----+----+-------+------------+
|  1| ABC|5000|     US|          []|
|  2| DEF|4000|    CAN|   [Address]|
|  3| GHI|3500|    JPN|       [sal]|
|  4|JKLM|4800|    CHN| [name, sal]|
+---+----+----+-------+------------+

Answer 4

您可以通過spark-extension包在 PySpark 和 Scala 中為您構建查詢。 它提供了正是這樣做的diff轉換。

from gresearch.spark.diff import *

options = DiffOptions().with_change_column('changes')
df1.diff_with_options(df2, options, 'id').show()
+----+-----------+---+---------+----------+--------+---------+------------+-------------+
|diff|    changes| id|left_name|right_name|left_sal|right_sal|left_Address|right_Address|
+----+-----------+---+---------+----------+--------+---------+------------+-------------+
|   N|         []|  1|      ABC|       ABC|    5000|     5000|          US|           US|
|   C|  [Address]|  2|      DEF|       DEF|    4000|     4000|          UK|          CAN|
|   C|      [sal]|  3|      GHI|       GHI|    3000|     3500|         JPN|          JPN|
|   C|[name, sal]|  4|      JKL|     JKL_M|    4500|     4800|         CHN|          CHN|
+----+-----------+---+---------+----------+--------+---------+------------+-------------+

雖然這是一個簡單的例子，但當涉及寬模式、插入、刪除和空值時，差異數據幀可能會變得復雜。 該軟件包已經過充分測試，因此您不必擔心自己是否正確查詢。

Answer 5

吹噓它是如何在 pyspark 上工作的

從 gresearch.spark.diff 導入 *

options = DiffOptions().with_change_column('changes') df1.diff_with_options(df2, options, 'id').show() +----+-----------+---+ ---------+----------+--------+---------+---------- --+-------------+ |差異| 變化| id|left_name|right_name|left_sal|right_sal|left_Address|right_Address| +----+-----------+---+---------+---------+------- -+---------+------------+------------+ | N| []| 1| ABC| ABC| 5000| 5000| 美國| 美國| | C| [地址]| 2| 防御| 防御| 4000| 4000| 英國| 可以| | C| [薩爾]| 3| 全球健康指數| 全球健康指數| 3000| 3500| 日文| 日文| | C|[姓名，薩爾]| 4| JKL| JKL_M| 4500| 4800| 中國| 中國| +----+-----------+---+---------+---------+------- -+---------+------------+------------+

比較兩個數據幀 Pyspark

問題描述

5 個解決方案

解決方案1
8 已采納 2020-02-18 15:54:37

解決方案2
4 2020-02-18 12:37:23

解決方案3
4 2020-02-18 13:07:33

解決方案4
0 2020-08-28 18:33:13

解決方案5
0 2021-07-27 13:24:28

比較兩個數據幀 Pyspark

問題描述

5 個解決方案

解決方案1 8 已采納 2020-02-18 15:54:37

解決方案2 4 2020-02-18 12:37:23

解決方案3 4 2020-02-18 13:07:33

解決方案4 0 2020-08-28 18:33:13

解決方案5 0 2021-07-27 13:24:28

解決方案1
8 已采納 2020-02-18 15:54:37

解決方案2
4 2020-02-18 12:37:23

解決方案3
4 2020-02-18 13:07:33

解決方案4
0 2020-08-28 18:33:13

解決方案5
0 2021-07-27 13:24:28