如何在行級別比較兩個海量火花數據幀並打印差異

Question

我有兩個非常大的火花數據框。 我想在行級別比較它並只打印差異

例如：

df1= firstname:abc lastname:xyz company:123

df2= firstname:abc lastname:xyz company:456

預期產出- diff= company(df1):123 company(df2):456

Answer 1

就我而言，您所描述的問題沒有最佳解決方案。 因為，只有當您擁有可以連接兩個數據框的column/reference時，才能找到數據框之間的差異。

有了這個注意，一種方法是使用subtract函數找到在某種程度上有所幫助的差異。

>>> df_1.show()
+-----+-----+-----+
|fname|lname|cmpny|
+-----+-----+-----+
|  abc|  xyz|  123|
+-----+-----+-----+

>>> df_2.show()
+-----+-----+-----+
|fname|lname|cmpny|
+-----+-----+-----+
|  abc|  xyz|  456|
+-----+-----+-----+

>>> df_1.select('*').subtract(df_2.select('*')).show()
+-----+-----+-----+
|fname|lname|cmpny|
+-----+-----+-----+
|  abc|  xyz|  123|
+-----+-----+-----+

>>> df_2.select('*').subtract(df_1.select('*')).show()
+-----+-----+-----+
|fname|lname|cmpny|
+-----+-----+-----+
|  abc|  xyz|  456|
+-----+-----+-----+

Answer 2

我想你正在尋找除了

df1.except(df2)

將返回 df1 中而不是 df2 中的行。

如何在行級別比較兩個海量火花數據幀並打印差異

問題描述

2 個解決方案

解決方案1
0 2019-03-21 10:13:23

解決方案2
0 2019-03-21 12:09:11

如何在行級別比較兩個海量火花數據幀並打印差異

問題描述

2 個解決方案

解決方案1 0 2019-03-21 10:13:23

解決方案2 0 2019-03-21 12:09:11

解決方案1
0 2019-03-21 10:13:23

解決方案2
0 2019-03-21 12:09:11