繁体   English   中英

有没有办法比较两个数据框并报告 Pyspark 中哪一列不同?

[英]Is there a way to compare two dataframes and report which column is different in Pyspark?

我正在使用df1.subtract(df2).rdd.isEmpty()来比较两个数据帧(假设这两个 df 的模式相同,或者至少我们希望它们相同),但是如果列之一不匹配,我无法从 output 日志中分辨出来,而且我需要很长时间才能找出数据中的问题(而且当数据集很大时它会很累)

有没有一种方法可以比较两个 df 并返回哪个列与 Pyspark 不匹配? 非常感谢。

您可以使用chispa 库,它是比较数据帧的好工具。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM