[英]how to compare two pyspark dataframes?
如果您的數據已編入索引(具有“id”列),您可以在“id”上加入 df2.subtract(df1) 和 df1.subtract(df2)
df1 = spark.createDataFrame([(1, 1, 1, 1, 1),
(2, 2, 2, 2, 2),
(3, 3, 3, 3, 3)],
schema = ["id", "col1", "col2", "col3", "col4"])
df2 = spark.createDataFrame([(1, 1, 1, 1, 1),
(2, 2, 2, 2, 3),
(3, 3, 3 , 3, 4)],
schema = ["id", "col1", "col2", "col3", "col4"])
df_a = df1.subtract(df2)
df_b = df2.subtract(df1)
df = df_a.join(df_b, "id")
產生以下 df
如果沒有可用的索引,則可能無法在沒有匹配列的額外要求的情況下獲得預期輸出。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.