在AWS Glus pyspark作業中從s3加載JSON

Question

我正在嘗試從粘合pyspark腳本內的s3存儲桶中檢索JSON文件。

我在aws膠內的作業中運行此功能：

def run(spark):
    s3_bucket_path = 's3://bucket/data/file.gz'

    df = spark.read.json(s3_bucket_path)
    df.show()

之后，我得到：AnalysisException：u'路徑不存在：s3：//bucket/data/file.gz;'

我搜索了此問題，但沒有發現任何類似的東西可以推斷出問題出在哪里。 我認為訪問存儲分區可能存在權限問題，但是錯誤消息應該有所不同。

Answer 1

在這里您可以嘗試：

    s3 = boto3.client("s3", region_name="us-west-2", aws_access_key_id=" 
        ", aws_secret_access_key="")
    jsonFile = s3.get_object(Bucket=bucket, Key=key)
    jsonObject = json.load(jsonFile["Body"])

其中Key = full path to your file in bucket

並在spark.read.json(jsonObject)使用此jsonObject

在AWS Glus pyspark作業中從s3加載JSON

問題描述

1 個解決方案

解決方案1
7 2018-08-14 15:18:30

在AWS Glus pyspark作業中從s3加載JSON

問題描述

1 個解決方案

解決方案1 7 2018-08-14 15:18:30

解決方案1
7 2018-08-14 15:18:30