在sbt中，我们如何指定spark所依赖的hadoop版本？

Question

好吧，我有一个使用 spark 和 spark sql 的 sbt 项目，但是我的集群使用 hadoop 1.0.4 和 spark 1.2 和 spark-sql 1.2，目前我的 build.sbt 看起来像这样：

libraryDependencies ++= Seq(
    "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.5",
    "com.datastax.cassandra" % "cassandra-driver-mapping" % "2.1.5",
    "com.datastax.spark" % "spark-cassandra-connector_2.10" % "1.2.1",
    "org.apache.spark" % "spark-core_2.10" % "1.2.1",
    "org.apache.spark" % "spark-sql_2.10" % "1.2.1",
)

事实证明，我正在使用 hadoop 2.2.0 运行该应用程序，但我希望在我的依赖项中看到 hadoop-*-1.0.4。 请问我该怎么办？

Answer 1

您可以排除 Spark 到 hadoop 的依赖项，并添加一个具有您需要的版本的显式依赖项，类似以下内容：

libraryDependencies ++= Seq(
    "com.datastax.cassandra" % "cassandra-driver-core" % "2.1.5",
    "com.datastax.cassandra" % "cassandra-driver-mapping" % "2.1.5",
    "com.datastax.spark" % "spark-cassandra-connector" %% "1.2.1",
    "org.apache.spark" % "spark-sql_2.10" % "1.2.1" excludeAll(
         ExclusionRule("org.apache.hadoop")
    ),
    "org.apache.hadoop" % "hadoop-client" % "2.2.0"
)

您可能不需要对spark-core的依赖，因为spark-sql应该可以传递给您。

另外，请注意spark-cassandra-connector可能也依赖于 spark，这可能会再次传递回 hadoop => 您可能还需要在那里添加排除规则。

最后说明：用于调查哪个依赖项来自何处的优秀工具是https://github.com/jrudolph/sbt-dependency-graph

在sbt中，我们如何指定spark所依赖的hadoop版本？

问题描述

1 个解决方案

解决方案1
4 已采纳 2015-06-16 07:18:19

在sbt中，我们如何指定spark所依赖的hadoop版本？

问题描述

1 个解决方案

解决方案1 4 已采纳 2015-06-16 07:18:19

解决方案1
4 已采纳 2015-06-16 07:18:19