繁体   English   中英

将 Scala kernel 与 Spark 一起使用

[英]Using Scala kernel with Spark

我在从 Spark 访问 S3 数据时遇到问题。 我为 JupyterHub 安装了JupyterHub spylon-kernel (即 Scala kernel 与 Spark 框架集成)。 它使用pyspark 不幸的是,最新的 pyspark 仍然使用hadoop-2.7.3库。 当我尝试访问法兰克福地区的 S3 存储桶时,我得到以下 Java 异常:

" com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务:Amazon S3,AWS 请求 ID:xxxxxxxxxx,AWS 错误代码:Z37A6259CC6648DFF0BD9A7 AWS 错误消息6648DFF0BD9A7

根据我的研究,它看起来像是hadoop 2.7.3问题。 对于较新的版本(3.1.1) ,它在本地运行良好,但pyspark使用那些hadoop 2.7.3 jars 并且看起来无法更改。 我能做点什么吗? 也许有一些方法可以告诉pyspark使用hadoop 3.1.1 jars? 或者也许还有其他 Scala kernel 与 Spark for Jupyterhub使用spark-shell而不是pyspark

好的,我终于修好了......我会发布一个答案,也许它会对某人有用。

pip install toree

jupyter toree install --spark_home /path/to/your/spark/ --interpreters=Scala

这个有效::)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM