簡體   English   中英

在 aws 膠水 pyspark 中設置火花配置

[英]Set spark configuration in aws glue pyspark

我正在使用帶有 pySpark 的 AWS Glue 並希望在 sparkSession 中添加幾個配置,例如'"spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem" , spark.hadoop.fs.s3a.multiobjectdelete.enable","false" , "spark.serializer", "org.apache.spark.serializer.KryoSerializer" , "spark.hadoop.fs.s3a.fast.upload","true" 。我用來初始化上下文的代碼如下:

glueContext = GlueContext(SparkContext.getOrCreate())
spark = glueContext.spark_session

從我從文檔中了解到的是,在提交膠水作業時,我應該將這些 confs 添加為作業參數。 是這種情況還是可以在初始化火花時添加它們?

這似乎沒有出錯 - 不確定它是否有效

hadoop_conf = spark.sparkContext._jsc.hadoopConfiguration()
hadoop_conf.set("spark.hadoop.fs.s3.maxRetries", "20")
hadoop_conf.set("spark.hadoop.fs.s3.consistent.retryPolicyType", "exponential")

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM