[英]Using Scala kernel with Spark
我在从 Spark 访问 S3 数据时遇到问题。 我为 JupyterHub 安装了JupyterHub
spylon-kernel
(即 Scala kernel 与 Spark 框架集成)。 它使用pyspark
。 不幸的是,最新的 pyspark 仍然使用hadoop-2.7.3
库。 当我尝试访问法兰克福地区的 S3 存储桶时,我得到以下 Java 异常:
" com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务:Amazon S3,AWS 请求 ID:xxxxxxxxxx,AWS 错误代码:Z37A6259CC6648DFF0BD9A7 AWS 错误消息6648DFF0BD9A7
根据我的研究,它看起来像是hadoop 2.7.3
问题。 对于较新的版本(3.1.1)
,它在本地运行良好,但pyspark
使用那些hadoop 2.7.3
jars 并且看起来无法更改。 我能做点什么吗? 也许有一些方法可以告诉pyspark
使用hadoop 3.1.1
jars? 或者也许还有其他 Scala kernel 与 Spark for Jupyterhub
使用spark-shell
而不是pyspark
?
好的,我终于修好了......我会发布一个答案,也许它会对某人有用。
pip install toree
jupyter toree install --spark_home /path/to/your/spark/ --interpreters=Scala
这个有效::)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.