將 Pandas Parquet 分區為 s3

Question

如何將按列分區的鑲木地板寫入 s3？ 我想：

def write_df_into_s3(df, bucket_name, filepath, format="parquet"):
    buffer = None
    hook = S3Hook()

    if format == "parquet":
        buffer = BytesIO()
        df.to_parquet(buffer, index=False, partition_cols=['date'])
    else:
        raise Exception("Format not implemented!")

    hook.load_bytes(buffer.getvalue(), filepath, bucket_name)

    return f"s3://{bucket_name}/{filepath}"

但是我收到一個錯誤'NoneType' object has no attribute '_isfilestore' 。

Answer 1

對於 python 3.6+，AWS 有一個名為 aws-data-wrangler 的庫，可以幫助 Pandas/S3/Parquet 之間的集成

安裝做；

pip install awswrangler

如果要將 Pandas 數據幀作為分區的鑲木地板文件寫入 S3，請執行；

import awswrangler as wr
wr.s3.to_parquet(
    dataframe=df,
    path="s3://my-bucket/key/"
    dataset=True,
    partition_cols=["date"]
)

將 Pandas Parquet 分區為 s3

問題描述

1 個解決方案

解決方案1
1 2020-09-12 12:34:43

將 Pandas Parquet 分區為 s3

問題描述

1 個解決方案

解決方案1 1 2020-09-12 12:34:43

解決方案1
1 2020-09-12 12:34:43