使用 Boto3 从 AWS S3 读取 gzip 文件的内容

Question

下面是我用来读取 gz 文件的代码

import json
import boto3
from io import BytesIO
import gzip

def lambda_handler(event, context):
try:
 s3 = boto3.resource('s3')
 key='test.gz'
 obj = s3.Object('athenaamit',key)
 n = obj.get()['Body'].read()
 #print(n)
 gzip = BytesIO(n)
 gzipfile = gzip.GzipFile(fileobj=gzip)
 content = gzipfile.read()
 print(content)
 return 'dddd'

除了 Exception as e: print(e) raise e 但我得到以下错误

 "errorMessage": "'_io.BytesIO' object has no attribute 'GzipFile'",
 "stackTrace": [
 "  File \"/var/task/lambda_function.py\", line 20, in lambda_handler\n    raise e\n",
"  File \"/var/task/lambda_function.py\", line 14, in lambda_handler\n    gzipfile = gzip.GzipFile(fileobj=gzip)\n"

蟒蛇版本-3.7

我还尝试实施以下建议https://stackoverflow.com/questions/32794837/pass-io-bytesio-object-to-gzip-gzipfile-and-write-to-gzipfile

但它也不适合我，请建议我如何阅读文件内容

Answer 1

把它整理成一个正确的答案。 工作代码将是：

s3 = boto3.resource('s3')
obj = s3.Object('my-bucket-name','path/to/file.gz')
buf = io.BytesIO(obj.get()["Body"].read()) # reads whole gz file into memory
for line in gzip.GzipFile(fileobj=buf):
    # do something with line

我有点担心内存占用，但似乎只有 gz 文件保存在内存中（上面的第 3 行）。 然后只有在for line循环中解压缩形式的每一for line 。

对于38M的 gz 文件，我的内存占用为47M （在虚拟内存中，在 htop 中为VIRT ）。 解压后的文件大小为308M 。

使用 Boto3 从 AWS S3 读取 gzip 文件的内容

问题描述

1 个解决方案

解决方案1
4 2020-02-06 14:56:54

使用 Boto3 从 AWS S3 读取 gzip 文件的内容

问题描述

1 个解决方案

解决方案1 4 2020-02-06 14:56:54

解决方案1
4 2020-02-06 14:56:54