IllegalArgumentException：创建 Spark Session

Question

我正在 AWS EMR 集群上的 python 笔记本中使用以下代码片段创建 spark session。

spark = SparkSession.builder \
                     .config("spark.jars.packages","org.apache.hadoop:hadoop-aws:2.7.0") \
                     .getOrCreate()

然后像下面这样从 S3 bucket 中读取数据

df_songs = spark.read.option("recursiveFileLookup","true") \
                .json("s3a://mydata/song_data/", schema=song_schema)

它给我错误：

IllegalArgumentException: For input string: "64M"

环境：Amazon EMR 服务

Answer 1

Hadoop-AWS模块从3.0版开始增加了对多个云提供商的支持。

Hadoop 引入了 s3a 客户端从 3.0 版本开始从 s3 读/写。

Hadoop 的“S3A”客户端针对 Amazon S3 object 存储和兼容实现提供高性能 IO。

要解决这个问题，我会像最新版本一样创建 spark 实例

spark = SparkSession.builder \
                     .config("spark.jars.packages","org.apache.hadoop:hadoop-aws:3.3.4") \
                     .getOrCreate()

从mvn 存储库中选择了最新版本的hadoop-aws 3.x

参考： https://hadoop.apache.org/docs/current3/hadoop-aws/tools/hadoop-aws/index.html

IllegalArgumentException：创建 Spark Session

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-10-10 16:11:18

IllegalArgumentException：创建 Spark Session

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-10-10 16:11:18

解决方案1
0 已采纳 2022-10-10 16:11:18