将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起

Question

我正在使用带有 hadoop 2.6 库的 apache spark 1.3.1。 我也在使用 s3a 协议。 我的工作从 s3 存储桶中读取数据，对其进行解析，然后将 parquet 文件写入另一个存储桶。 它工作正常，除了作业在完成时挂起并且永远不会退出。 关于导致这种情况的原因的任何想法，是否有我需要关闭的资源？

代码非常基础：

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切都成功完成，然后我的工作就挂起了。

Answer 1

所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题

将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起

问题描述

1 个解决方案

解决方案1
3 已采纳 2015-08-26 19:51:32

将 parquet 文件写入 S3 存储桶后 Apache Spark 挂起

问题描述

1 个解决方案

解决方案1 3 已采纳 2015-08-26 19:51:32

解决方案1
3 已采纳 2015-08-26 19:51:32