[英]Not clear where to add --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4 in aws cloudformation yaml template
我已经创建了用于将 avro 文件转换为镶木地板的粘合作业。 为此,我正在进口
--conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4
在 yaml 文件中。 但是由于没有创建数据框,工作仍然失败。 显示以下错误:AnalysisException('Failed to find data source: org.apache.spark.sql.avro. Avro is built-in but external data source module since Spark 2.4.')
我的yml模板如下:
DefaultArguments:
'--job-language': 'python'
'--job-bookmark-option': 'job-bookmark-disable'
'--enable-metrics': ''
'--conf': 'spark.executor.memoryOverhead=1g --conf spark.maxRemoteBlockSizeFetchToMem=2g --conf spark.jars.packages=org.apache.spark:spark-avro_2.11:2.4.4'
'--JOB_NAME': !If [IsPythonShell, !Ref GlueJobName, !Ref "AWS::NoValue"]
我不清楚我哪里出错了。 我的猜测是我将 conf package 放在了错误的位置。
请帮忙。
解决此问题的一种方法是使用--extra-jars
( github 上的文档)并引用 S3 中的 jar 文件。 当然,您必须将 jar 存储在 S3 中。 我认为 Glue 不会像普通的 spark-submit 那样下载任何 jars。
还要添加到粘合作业--user-jars-first: "true"
参数。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.