繁体   English   中英

在 linux 机器上使用 s3a 失败 > 100 列镶木地板

[英]Using s3a on linux machine fail for >100 columns parquet

我正在使用 s3a 从数据库读取 dataframe 并写入.parquet(s3a://bucketname//folder)。 它适用于 <100 列 dataframe 但 crash.exits spark-shell 用于 >~100 列。 如果这是列限制/版本问题/内存问题,找不到任何材料? 希望从有经验的社区中找到一些方向。

PS。 与以下相同的代码适用于 Eclipse Windows 在我的本地机器上,但在 linux 实例上出现问题

火花版本- 2.4.0-cdh6.3.3 scala 版本- 2.11.12 Java 版本- 1.8

def execute(sql:String) = {//defined connection }
val df_sql = ("select * from sampletable")
val df_exe = execute(df_sql)
df_exe.write.parquet(s3a://bucketname/folder)

找到答案,以防有人遇到这个问题。 调用 spark-submit 时,增加驱动程序内存以适应正在写入的文件的 1 个分区。 我用了16g

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM