如何将数据从 S3 存储桶加载到 Sagemaker jupyter notebook 以训练 model？

Question

我在 S3 存储桶中有 csv 个文件，我想用这些文件在 sagemaker 中训练 model。

使用此代码但出现错误（找不到文件）

import boto3
import pandas as pd
region = boto3.Session().region_name
train_data_location = 's3://taggingu-{}/train.csv'.format(region)
df=pd.read_csv(train_data_location, header = None)
print df.head

什么可以解决这个问题？

Answer 1

不知道，但是这个stackoverflow可以回答吗？ 将S3数据加载到AWS SageMaker Notebook

引用@Chhoser：

import boto3
import pandas as pd
from sagemaker import get_execution_role

role = get_execution_role()
bucket='my-bucket'
data_key = 'train.csv'
data_location = 's3://{}/{}'.format(bucket, data_key)

pd.read_csv(data_location)

Answer 2

您可以将AWS SDK 用于 Pandas ，这是一个扩展 Pandas 的库，可以与 AWS 数据存储顺利协作。

import awswrangler as wr
df = wr.s3.read_csv("s3://bucket/file.csv")

大多数笔记本内核都有它，如果缺少它可以通过pip install awswrangler 。

如何将数据从 S3 存储桶加载到 Sagemaker jupyter notebook 以训练 model？

问题描述

2 个解决方案

解决方案1
0 2018-11-27 10:31:42

解决方案2
0 2023-01-12 23:26:45

如何将数据从 S3 存储桶加载到 Sagemaker jupyter notebook 以训练 model？

问题描述

2 个解决方案

解决方案1 0 2018-11-27 10:31:42

解决方案2 0 2023-01-12 23:26:45

解决方案1
0 2018-11-27 10:31:42

解决方案2
0 2023-01-12 23:26:45