簡體   English   中英

有沒有辦法比較兩個數據框並報告 Pyspark 中哪一列不同?

[英]Is there a way to compare two dataframes and report which column is different in Pyspark?

我正在使用df1.subtract(df2).rdd.isEmpty()來比較兩個數據幀(假設這兩個 df 的模式相同,或者至少我們希望它們相同),但是如果列之一不匹配,我無法從 output 日志中分辨出來,而且我需要很長時間才能找出數據中的問題(而且當數據集很大時它會很累)

有沒有一種方法可以比較兩個 df 並返回哪個列與 Pyspark 不匹配? 非常感謝。

您可以使用chispa 庫,它是比較數據幀的好工具。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM