[英]How to initialise PySpark on AWS Cloud9
我想在 aws cloud9 上初始化 pyspark 版本 3.3.1 并从 AWS 读取 s3 文件路径。 但是当我运行代码时,出现了如图所示的错误。
我在想我的 Pyspark 初始化有问题,我已经尝试了我同事提供的下面的代码,但显然这对我不起作用。 在此处输入图像描述
我的 pyspark 版本是 3.3.1 和 hadoop 版本 3
pkg_list=org.apache.spark:spark-avro_2.11:2.4.4,org.apache.hadoop:hadoop-aws:2.7.1
pyspark --packages $pkg_list --driver-memory 32G --driver-cores 8 --num-executors 8 --executor-memory 32G --executor-cores 8 --driver-java-options="-Djava.io.tmpdir=/home/yoongkiat/tempfiles"
错误是说在某些 hadoop 配置文件或 Spark 使用的选项中,您有一个字符串64M
,但它只需要一个数字。
该错误没有说明是哪个文件,也不是您在命令行中提供的值,因此您需要自行调试安装。 正如评论中提到的,AWS EMR 已经提供了一个功能性的 Spark 环境。
顺便说一句,您不能使用来自不同 Spark 版本的依赖项; 你正在运行 3.3.1,但试图为 2.4.4 添加 spark-avro。 我也不确定您是否需要添加 hadoop-aws,因为 Spark 应该包含开箱即用的这些库。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.