簡體   English   中英

在AWS Glus pyspark作業中從s3加載JSON

[英]Load JSON from s3 inside aws glue pyspark job

我正在嘗試從粘合pyspark腳本內的s3存儲桶中檢索JSON文件。

我在aws膠內的作業中運行此功能:

def run(spark):
    s3_bucket_path = 's3://bucket/data/file.gz'

    df = spark.read.json(s3_bucket_path)
    df.show()

之后,我得到:AnalysisException:u'路徑不存在:s3://bucket/data/file.gz;'

我搜索了此問題,但沒有發現任何類似的東西可以推斷出問題出在哪里。 我認為訪問存儲分區可能存在權限問題,但是錯誤消息應該有所不同。

在這里您可以嘗試:

    s3 = boto3.client("s3", region_name="us-west-2", aws_access_key_id=" 
        ", aws_secret_access_key="")
    jsonFile = s3.get_object(Bucket=bucket, Key=key)
    jsonObject = json.load(jsonFile["Body"])

其中Key = full path to your file in bucket

並在spark.read.json(jsonObject)使用此jsonObject

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM