[英]Set spark configuration in aws glue pyspark
我正在使用带有 pySpark 的 AWS Glue 并希望在 sparkSession 中添加几个配置,例如'"spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem"
, spark.hadoop.fs.s3a.multiobjectdelete.enable","false"
, "spark.serializer", "org.apache.spark.serializer.KryoSerializer"
, "spark.hadoop.fs.s3a.fast.upload","true"
。我用来初始化上下文的代码如下:
glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session
从我从文档中了解到的是,在提交胶水作业时,我应该将这些 confs 添加为作业参数。 是这种情况还是可以在初始化火花时添加它们?
这似乎没有出错 - 不确定它是否有效
hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("spark.hadoop.fs.s3.maxRetries", "20")
hadoop_conf.set("spark.hadoop.fs.s3.consistent.retryPolicyType", "exponential")
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.