![](/img/trans.png)
[英]PySpark SparkSession error when trying to write parquet files to S3 bucket: org.apache.spark.SparkException: Task failed while writing rows
[英]Apache Spark hangs after writing parquet file to S3 bucket
我正在使用带有 hadoop 2.6 库的 apache spark 1.3.1。 我也在使用 s3a 协议。 我的工作从 s3 存储桶中读取数据,对其进行解析,然后将 parquet 文件写入另一个存储桶。 它工作正常,除了作业在完成时挂起并且永远不会退出。 关于导致这种情况的原因的任何想法,是否有我需要关闭的资源?
代码非常基础:
val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")
一切都成功完成,然后我的工作就挂起了。
所以我们通过将 hadoop-aws jar 从 2.6.0 升级到 2.7.1 来解决这个问题
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.