将 Scala kernel 与 Spark 一起使用

Question

我在从 Spark 访问 S3 数据时遇到问题。 我为 JupyterHub 安装了JupyterHub spylon-kernel （即 Scala kernel 与 Spark 框架集成）。 它使用pyspark 。 不幸的是，最新的 pyspark 仍然使用hadoop-2.7.3库。 当我尝试访问法兰克福地区的 S3 存储桶时，我得到以下 Java 异常：

" com.amazonaws.services.s3.model.AmazonS3Exception：状态代码：400，AWS 服务：Amazon S3，AWS 请求 ID：xxxxxxxxxx，AWS 错误代码：Z37A6259CC6648DFF0BD9A7 AWS 错误消息6648DFF0BD9A7

根据我的研究，它看起来像是hadoop 2.7.3问题。 对于较新的版本(3.1.1) ，它在本地运行良好，但pyspark使用那些hadoop 2.7.3 jars 并且看起来无法更改。 我能做点什么吗？ 也许有一些方法可以告诉pyspark使用hadoop 3.1.1 jars？ 或者也许还有其他 Scala kernel 与 Spark for Jupyterhub使用spark-shell而不是pyspark ？

Answer 1

好的，我终于修好了......我会发布一个答案，也许它会对某人有用。

pip install toree

jupyter toree install --spark_home /path/to/your/spark/ --interpreters=Scala

这个有效：:)

将 Scala kernel 与 Spark 一起使用

问题描述

1 个解决方案

解决方案1
0 2020-04-25 12:19:26

将 Scala kernel 与 Spark 一起使用

问题描述

1 个解决方案

解决方案1 0 2020-04-25 12:19:26

解决方案1
0 2020-04-25 12:19:26