[英]Counting keys in an S3 bucket
使用下面的 boto3 库和 python 代码,我可以遍历 S3 存储桶和前缀,打印出前缀名称和键名称如下:
import boto3
client = boto3.client('s3')
pfx_paginator = client.get_paginator('list_objects_v2')
pfx_iterator = pfx_paginator.paginate(Bucket='app_folders', Delimiter='/')
for prefix in pfx_iterator.search('CommonPrefixes'):
print(prefix['Prefix'])
key_paginator = client.get_paginator('list_objects_v2')
key_iterator = key_paginator.paginate(Bucket='app_folders', Prefix=prefix['Prefix'])
for key in key_iterator.search('Contents'):
print(key['Key'])
在密钥循环内部,我可以放入一个计数器来计算密钥(文件)的数量,但这是一个昂贵的操作。 有没有办法在给定存储桶名称和前缀的情况下进行一次调用并返回该前缀中包含的键的计数(即使它超过 1000)?
更新:我在这里找到了一篇文章,其中展示了一种使用 AWS CLI 执行此操作的方法,如下所示:
aws s3api list-objects --bucket BUCKETNAME --prefix "folder/subfolder/" --output json --query "[length(Contents[])]"
有没有办法用 boto3 API 做类似的事情?
您可以使用MaxKeys=1000
参数来完成。 对于您的情况:
pfx_iterator = pfx_paginator.paginate(Bucket='app_folders', Delimiter='/', MaxKeys=1000)
一般来说:
response = client.list_objects_v2(
Bucket='string',
Delimiter='string',
EncodingType='url',
MaxKeys=123,
Prefix='string',
ContinuationToken='string',
FetchOwner=True|False,
StartAfter='string',
RequestPayer='requester'
)
它会便宜 1000 倍 :) 文档在这里
使用 aws cli 很容易计算:
aws s3 ls <folder url> --recursive --summarize | grep <comment>
例如,
aws s3 ls s3://abc/ --recursive --summarize | grep "Number of Objects"
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.