繁体   English   中英

不清楚在 aws cloudformation yaml 模板中添加 --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4 的位置

[英]Not clear where to add --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4 in aws cloudformation yaml template

我已经创建了用于将 avro 文件转换为镶木地板的粘合作业。 为此,我正在进口

--conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4 

在 yaml 文件中。 但是由于没有创建数据框,工作仍然失败。 显示以下错误:AnalysisException('Failed to find data source: org.apache.spark.sql.avro. Avro is built-in but external data source module since Spark 2.4.')

我的yml模板如下:

 DefaultArguments:
    '--job-language': 'python'
    '--job-bookmark-option': 'job-bookmark-disable'
    '--enable-metrics': ''
    '--conf': 'spark.executor.memoryOverhead=1g --conf spark.maxRemoteBlockSizeFetchToMem=2g --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4'
    '--JOB_NAME': !If [IsPythonShell, !Ref GlueJobName, !Ref "AWS::NoValue"]

我不清楚我哪里出错了。 我的猜测是我将 conf package 放在了错误的位置。

请帮忙。

解决此问题的一种方法是使用--extra-jarsgithub 上的文档)并引用 S3 中的 jar 文件。 当然,您必须将 jar 存储在 S3 中。 我认为 Glue 不会像普通的 spark-submit 那样下载任何 jars。

还要添加到粘合作业--user-jars-first: "true"参数。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM