如何在AWS胶水中检查Spark和Hadoop的版本？

Question

我正在使用AWS（基本支持计划）。 我想知道在AWS胶合作业中使用了哪个版本的Spark和Hadoop（HDFS）。 这样我就可以在本地机器中设置相同的环境进行开发。

或者，如果我知道Spark的版本，那么AWS胶水作业使用哪个版本的Hadoop，反之亦然。

因为我正在使用基本支持计划。 所以，我不能提出支持中心的案例。 我知道在哪里可以检查AWS胶水作业... Spark和Hadoop版本？

任何形式的帮助和建议表示赞赏。 谢谢！

Answer 1

如果你使用Spark> 2.0那么

1.In Pyspark:

获取Spark版本：

print("Spark Version:" + spark.version)

在spark <2.0：

sc.version

获取Hadoop版本 ：

print("Hadoop version: " + sc._gateway.jvm.org.apache.hadoop.util.VersionInfo.getVersion())

2.In Scala:

Spark版本：

println ("Spark Version:" + spark.version)

在火花<2.0：

sc.version

Hadoop版本：

println("Hadoop version: " + org.apache.hadoop.util.VersionInfo.getVersion())

Answer 2

AWS Glue支持Apache Spark 2.2.1，如此处所述

AWS尚未在任何地方记录AWS Glue的hadoop版本。 但是，作为AWS Glue实际上是由AWS EMR支持的，而hadoop版本将是2.8.x.

根据以下文档或AWS EMR上的hadoop / spark，我认为它是2.8.3。

AWS EMR hadoop发布历史记录

发布标签5.12.2的火花2.2.1和hadoop 2.8.3