繁体   English   中英

DataFrame操作的怪异行为

[英]Weird behavior of DataFrame operations

考虑一下代码:

val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from  ORCtable")
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
  trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)

这将产生警告WARN TaskMemoryManager: Failed to allocate a page (2097152 bytes), try again. 代码失败java.lang.OutOfMemoryError: GC overhead limit exceeded

但是,如果我运行以下代码:

val df1 = spark.table("t1").filter(col("c1")=== lit(127))
val df2 = spark.sql("select x,y,z from  ORCtable limit 2000000")//only difference here
//ORC table has 1651343 rows so doesn't exceed limit 2000000
val df3 = df1.join(df2.toDF(df2.columns.map(_ + "_R"): _*),
  trim(upper(coalesce(col("y_R"), lit("")))) === trim(upper(coalesce(col("a"), lit("")))), "leftouter")
df3.select($"y_R",$"z_R").show(500,false)

这将产生正确的输出。 我茫然为什么会发生这种情况以及发生什么变化。 有人可以帮忙吗?

回答我自己的问题:生成相同dataframe的两种方式的Spark physical execution plan是不同的,可以通过调用.explain()方法进行检查。

第一种方法使用broadcast-hash join ,这会导致java.lang.OutOfMemoryError: GC overhead limit exceededjava.lang.OutOfMemoryError: GC overhead limit exceeded而第二种方法运行了sort-merge join ,该sort-merge join通常较慢,但不会对垃圾回收造成太大的负担。

物理执行计划中的这种差异是由df2 dataframe上的附加filter操作引起的。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM