繁体   English   中英

将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起

[英]Apache Spark hangs after writing parquet file to S3 bucket

我正在使用带有 hadoop 2.6 库的 apache spark 1.3.1。 我也在使用 s3a 协议。 我的工作从 s3 存储桶中读取数据,对其进行解析,然后将 parquet 文件写入另一个存储桶。 它工作正常,除了作业在完成时挂起并且永远不会退出。 关于导致这种情况的原因的任何想法,是否有我需要关闭的资源?

代码非常基础:

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切都成功完成,然后我的工作就挂起了。

所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM