[英]Is there a way to compare two dataframes and report which column is different in Pyspark?
我正在使用df1.subtract(df2).rdd.isEmpty()
來比較兩個數據幀(假設這兩個 df 的模式相同,或者至少我們希望它們相同),但是如果列之一不匹配,我無法從 output 日志中分辨出來,而且我需要很長時間才能找出數據中的問題(而且當數據集很大時它會很累)
有沒有一種方法可以比較兩個 df 並返回哪個列與 Pyspark 不匹配? 非常感謝。
您可以使用chispa 庫,它是比較數據幀的好工具。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.