繁体   English   中英

如何在 AWS Cloud9 上初始化 PySpark

[英]How to initialise PySpark on AWS Cloud9

我想在 aws cloud9 上初始化 pyspark 版本 3.3.1 并从 AWS 读取 s3 文件路径。 但是当我运行代码时,出现了如图所示的错误。

我在想我的 Pyspark 初始化有问题,我已经尝试了我同事提供的下面的代码,但显然这对我不起作用。 在此处输入图像描述

我的 pyspark 版本是 3.3.1 和 hadoop 版本 3

pkg_list=org.apache.spark:spark-avro_2.11:2.4.4,org.apache.hadoop:hadoop-aws:2.7.1

pyspark --packages $pkg_list --driver-memory 32G --driver-cores 8 --num-executors 8 --executor-memory 32G --executor-cores 8 --driver-java-options="-Djava.io.tmpdir=/home/yoongkiat/tempfiles"

错误是说在某些 hadoop 配置文件或 Spark 使用的选项中,您有一个字符串64M ,但它只需要一个数字。

该错误没有说明是哪个文件,也不是您在命令行中提供的值,因此您需要自行调试安装。 正如评论中提到的,AWS EMR 已经提供了一个功能性的 Spark 环境。

顺便说一句,您不能使用来自不同 Spark 版本的依赖项; 你正在运行 3.3.1,但试图为 2.4.4 添加 spark-avro。 我也不确定您是否需要添加 hadoop-aws,因为 Spark 应该包含开箱即用的这些库。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM