將數據幀作為壓縮的 csv 直接上傳到 s3，而無需將其保存在本地機器上

Question

如何將數據幀作為壓縮的csv 上傳到 S3 存儲桶中，而無需先將其保存在本地計算機上？

我已經使用以下方法連接到該存儲桶：

self.s3_output = S3(bucket_name='test-bucket', bucket_subfolder='')

Answer 1

我們可以使用標准庫中的 BytesIO 和 zipfile 制作一個類似文件的對象。

# 3.7
from io import BytesIO
import zipfile

# .to_csv returns a string when called with no args
s = df.to_csv()

with zipfile.ZipFile(BytesIO(), mode="w",) as z:
  z.writestr("df.csv", s)
  # upload file here

您需要參考upload_fileobj以自定義上傳的行為方式。

yourclass.s3_output.upload_fileobj(z, ...)

Answer 2

這同樣適用於 zip 和 gz：

import boto3
import gzip
import pandas as pd
from io import BytesIO, TextIOWrapper


s3_client = boto3.client(
        service_name = "s3",
        endpoint_url = your_endpoint_url,
        aws_access_key_id = your_access_key,
        aws_secret_access_key = your_secret_key
    
    
# Your file name inside zip

your_filename = "test.csv"
    
s3_path = f"path/to/your/s3/compressed/file/test.zip"
    
bucket = "your_bucket"
    
df = your_df
    
    
gz_buffer = BytesIO()


with gzip.GzipFile(   
    
    filename = your_filename,
    mode = 'w', 
    fileobj = gz_buffer ) as gz_file:

    
    df.to_csv(TextIOWrapper(gz_file, 'utf8'), index=False)
    
    
    s3.put_object(
        Bucket=bucket, Key=s3_path, Body=gz_buffer.getvalue()
    )

將數據幀作為壓縮的 csv 直接上傳到 s3，而無需將其保存在本地機器上

問題描述

2 個解決方案

解決方案1
1 已采納 2019-02-05 15:39:11

解決方案2
0 2021-08-19 17:23:19

將數據幀作為壓縮的 csv 直接上傳到 s3，而無需將其保存在本地機器上

問題描述

2 個解決方案

解決方案1 1 已采納 2019-02-05 15:39:11

解決方案2 0 2021-08-19 17:23:19

解決方案1
1 已采納 2019-02-05 15:39:11

解決方案2
0 2021-08-19 17:23:19