如何在 AWS Cloud9 上初始化 PySpark

Question

我想在 aws cloud9 上初始化 pyspark 版本 3.3.1 并从 AWS 读取 s3 文件路径。 但是当我运行代码时，出现了如图所示的错误。

我在想我的 Pyspark 初始化有问题，我已经尝试了我同事提供的下面的代码，但显然这对我不起作用。 在此处输入图像描述

我的 pyspark 版本是 3.3.1 和 hadoop 版本 3

pkg_list=org.apache.spark:spark-avro_2.11:2.4.4,org.apache.hadoop:hadoop-aws:2.7.1

pyspark --packages $pkg_list --driver-memory 32G --driver-cores 8 --num-executors 8 --executor-memory 32G --executor-cores 8 --driver-java-options="-Djava.io.tmpdir=/home/yoongkiat/tempfiles"

Answer 1

错误是说在某些 hadoop 配置文件或 Spark 使用的选项中，您有一个字符串64M ，但它只需要一个数字。

该错误没有说明是哪个文件，也不是您在命令行中提供的值，因此您需要自行调试安装。 正如评论中提到的，AWS EMR 已经提供了一个功能性的 Spark 环境。

顺便说一句，您不能使用来自不同 Spark 版本的依赖项； 你正在运行 3.3.1，但试图为 2.4.4 添加 spark-avro。 我也不确定您是否需要添加 hadoop-aws，因为 Spark 应该包含开箱即用的这些库。

如何在 AWS Cloud9 上初始化 PySpark

问题描述

1 个解决方案

解决方案1
0 2022-12-02 13:33:34

如何在 AWS Cloud9 上初始化 PySpark

问题描述

1 个解决方案

解决方案1 0 2022-12-02 13:33:34

解决方案1
0 2022-12-02 13:33:34