将 S3 数据加载到 AWS SageMaker Notebook

Question

我刚开始试验 AWS SageMaker，想将数据从 S3 存储桶加载到我的 SageMaker python jupyter 笔记本中的 pandas dataframe 进行分析。

我可以使用 boto 从 S3 获取数据，但我想知道是否有更优雅的方法作为 SageMaker 框架的一部分在我的 python 代码中执行此操作？

Answer 1

import boto3
import pandas as pd
from sagemaker import get_execution_role

role = get_execution_role()
bucket='my-bucket'
data_key = 'train.csv'
data_location = 's3://{}/{}'.format(bucket, data_key)

pd.read_csv(data_location)

Answer 2

在最简单的情况下，您不需要boto3 ，因为您只需阅读资源。
然后就更简单了：

import pandas as pd

bucket='my-bucket'
data_key = 'train.csv'
data_location = 's3://{}/{}'.format(bucket, data_key)

pd.read_csv(data_location)

但正如 Prateek 所说，请确保配置您的 SageMaker 笔记本实例。 可以访问s3。 这是在权限 > IAM 角色中的配置步骤中完成的

Answer 3

如果你看看这里，你似乎可以在InputDataConfig 中指定它。 在文档中搜索“S3DataSource”( ref )。 第一个命中甚至是在 Python 中，第 25/26 页。

Answer 4

您还可以使用s3fs将您的存储桶作为文件系统访问

import s3fs
fs = s3fs.S3FileSystem()

# To List 5 files in your accessible bucket
fs.ls('s3://bucket-name/data/')[:5]

# open it directly
with fs.open(f's3://bucket-name/data/image.png') as f:
    display(Image.open(f))

Answer 5

请确保 Amazon SageMaker 角色附加了策略以访问 S3。 它可以在 IAM 中完成。

Answer 6

您还可以使用 AWS Data Wrangler https://github.com/awslabs/aws-data-wrangler ：

import awswrangler as wr

df = wr.pandas.read_csv(path="s3://...")

Answer 7

此代码示例用于从 S3 导入 csv 文件，在 SageMaker notebook 上进行了测试。

使用 pip 或 conda 安装 s3fs。 !pip install s3fs

import pandas as pd

my_bucket = '' #declare bucket name
my_file = 'aa/bb.csv' #declare file path

import boto3 # AWS Python SDK
from sagemaker import get_execution_role
role = get_execution_role()

data_location = 's3://{}/{}'.format(my_bucket,my_file)
data=pd.read_csv(data_location)
data.head(2)

Answer 8

与f-string类似的答案。

import pandas as pd
bucket = 'your-bucket-name'
file = 'file.csv'
df = pd.read_csv(f"s3://{bucket}/{file}")
len(df) # print row counts

Answer 9

有多种方法可以将数据读入 Sagemaker。 为了使响应更全面，我添加了详细信息以将数据读入 memory 中的 Sagemaker Studio Notebook 以及 S3 安装选项。

虽然根据我的经验，不建议将 Notebook 用于数据密集型建模，而是更多地用于原型制作，但可以通过多种方式将数据读入其中。

基于 Memory 的选项

博图3
S3FS

Boto3和S3FS也可以和Pandas等python库结合使用，读取memory中的数据，也可以用来复制数据到本地实例EFS。

安装选项

S3FS-保险丝 ( https://github.com/s3fs-fuse/s3fs-fuse )
高飞 ( https://github.com/kahing/goofys )

这两个选项提供类似挂载的行为，其中数据似乎位于本地目录中以进行更高的 IO 操作。 这两种选择都有其优点和缺点。

将 S3 数据加载到 AWS SageMaker Notebook

问题描述

9 个解决方案

解决方案1
48 2018-05-09 02:59:50

解决方案2
27 2019-05-09 13:09:04

解决方案3
11 已采纳 2018-01-15 17:16:02

解决方案4
7 2019-06-01 08:40:17

解决方案5
5 2018-01-16 10:16:45

解决方案6
2 2020-01-14 14:17:56

解决方案7
0 2020-11-27 06:27:13

解决方案8
0 2021-06-16 21:03:30

解决方案9
0 2022-12-01 17:31:25

基于 Memory 的选项

安装选项

将 S3 数据加载到 AWS SageMaker Notebook

问题描述

9 个解决方案

解决方案1 48 2018-05-09 02:59:50

解决方案2 27 2019-05-09 13:09:04

解决方案3 11 已采纳 2018-01-15 17:16:02

解决方案4 7 2019-06-01 08:40:17

解决方案5 5 2018-01-16 10:16:45

解决方案6 2 2020-01-14 14:17:56

解决方案7 0 2020-11-27 06:27:13

解决方案8 0 2021-06-16 21:03:30

解决方案9 0 2022-12-01 17:31:25

基于 Memory 的选项

安装选项

解决方案1
48 2018-05-09 02:59:50

解决方案2
27 2019-05-09 13:09:04

解决方案3
11 已采纳 2018-01-15 17:16:02

解决方案4
7 2019-06-01 08:40:17

解决方案5
5 2018-01-16 10:16:45

解决方案6
2 2020-01-14 14:17:56

解决方案7
0 2020-11-27 06:27:13

解决方案8
0 2021-06-16 21:03:30

解决方案9
0 2022-12-01 17:31:25