使用 python，有沒有辦法將 polars dataframe 作為鑲木地板直接加載到 s3 存儲桶中

Question

尋找這樣的東西：

api 顯示這些 arguments： https://pola-rs.github.io/polars/py-polars/html/reference/api/polars.DataFrame.write_parquet.html

但我不確定如何將 df 轉換為 stream...

Answer 1

未經測試，因為我沒有 AWS 賬戶

您可以像這樣使用s3fs.S3File ：

import polars as pl
import s3fs

fs = s3fs.S3FileSystem(anon=True)  # picks up default credentials
df = pl.DataFrame(
    {
        "foo": [1, 2, 3, 4, 5],
        "bar": [6, 7, 8, 9, 10],
        "ham": ["a", "b", "c", "d", "e"],
    }
)
with fs.open('my-bucket/dataframe-dump.parquet', mode='wb') as f:
    df.write_parquet(f)

基本上s3fs給你一個符合fsspec的文件 object，polars 知道如何使用它，因為write_parquet接受任何常規文件或流。

如果您想更精細地管理您的 S3 連接，您可以從botocore連接構造為S3File object（請參閱上面鏈接的文檔）。

使用 python，有沒有辦法將 polars dataframe 作為鑲木地板直接加載到 s3 存儲桶中

問題描述

1 個解決方案

解決方案1
2 已采納 2023-01-14 02:13:53

使用 python，有沒有辦法將 polars dataframe 作為鑲木地板直接加載到 s3 存儲桶中

問題描述

1 個解決方案

解決方案1 2 已采納 2023-01-14 02:13:53

解決方案1
2 已采納 2023-01-14 02:13:53