[英]Is there a way to compare two dataframes and report which column is different in Pyspark?
我正在使用df1.subtract(df2).rdd.isEmpty()
来比较两个数据帧(假设这两个 df 的模式相同,或者至少我们希望它们相同),但是如果列之一不匹配,我无法从 output 日志中分辨出来,而且我需要很长时间才能找出数据中的问题(而且当数据集很大时它会很累)
有没有一种方法可以比较两个 df 并返回哪个列与 Pyspark 不匹配? 非常感谢。
您可以使用chispa 库,它是比较数据帧的好工具。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.