繁体   English   中英

为什么具有 1 个大行的 Spark dataframe 需要很长时间才能写入?

[英]Why is a Spark dataframe with 1 large row taking a long time to write?

我有一个只有 1 行的 dataframe,但该行的大小约为 1 GB。 写它需要很长时间。 我的工作因此运行了大约一个小时,这正常吗?

我在写之前做了 coalesce(10) ,它没有帮助。 我认为围绕数据行合并和重新分区洗牌,对吗? 但在这种情况下,只有 1 行,所以数据偏斜仍然存在。

我该如何解决这个问题?

在此处输入图像描述

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM