更新 Amazon s3 中 CSV 大文件第一行的最佳方法

Question

我有 15 個大於 5GB 的大文件。 這 15 個 CSV 大文件中的 header 丟失了，我們需要將其作為每個文件的第一行注入。 最聰明的方法是什么？

目前，我有一個在文件中運行 sed 的 S3 cp 命令，但它速度慢且耗時。 有更好的方法嗎？ 數據被 gzip 壓縮

Answer 1

我想如果你不將文件保存到磁盤，而aws s3 cp會這樣做，你可以加快速度。 （盡管您可能正在使用 shell 進程替換來避免保存到磁盤。）

如果您願意使用 AWS Python SDK，boto3，您可以 stream 響應。 但是如果你想避免將整個文件加載到 memory 中，你將需要使用分段上傳，這有點難以管理。

這個問題表明您可以將 header 與文件連接起來，而無需解壓縮大文件，這可以加快速度。

將這兩個想法放在一起，這是一個例子。

import boto3
import gzip

s3 = boto3.client("3")
bucket = "mybucket"
key = "mykey.csv.gz"
new_key = "mykey2.csv.gz"

my_header = "Name,Date,Score".encode("utf-8")
header_compressed = gzip.compress(my_header)

r = s3.get_object(Bucket=bucket, Key=key)
output = [header_compressed]
for chunk in r["Body"].iter_chunks():
    output.append(chunk)

s3.put_object(Bucket=bucket, Key=new_key, Body=b"".join(output))

更新 Amazon s3 中 CSV 大文件第一行的最佳方法

問題描述

1 個解決方案

解決方案1
0 2021-09-28 05:28:51

更新 Amazon s3 中 CSV 大文件第一行的最佳方法

問題描述

1 個解決方案

解決方案1 0 2021-09-28 05:28:51

解決方案1
0 2021-09-28 05:28:51