DataFrame操作的怪異行為

Question

考慮一下代碼：

val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from  ORCtable")
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
  trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)

這將產生警告WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 代碼失敗java.lang.OutOfMemoryError: GC overhead limit exceeded 。

但是，如果我運行以下代碼：

val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from  ORCtable limit 2000000")//only difference here
//ORC table has 1651343 rows so doesn't exceed limit 2000000
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
  trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)

這將產生正確的輸出。 我茫然為什么會發生這種情況以及發生什么變化。 有人可以幫忙嗎？

Answer 1

回答我自己的問題：生成相同dataframe的兩種方式的Spark physical execution plan是不同的，可以通過調用.explain()方法進行檢查。

第一種方法使用broadcast-hash join ，這會導致java.lang.OutOfMemoryError: GC overhead limit exceeded了java.lang.OutOfMemoryError: GC overhead limit exceeded而第二種方法運行了sort-merge join ，該sort-merge join通常較慢，但不會對垃圾回收造成太大的負擔。

物理執行計划中的這種差異是由df2 dataframe上的附加filter操作引起的。

DataFrame操作的怪異行為

問題描述

1 個解決方案

解決方案1
2 已采納 2017-03-22 14:05:30

DataFrame操作的怪異行為

問題描述

1 個解決方案

解決方案1 2 已采納 2017-03-22 14:05:30

解決方案1
2 已采納 2017-03-22 14:05:30