繁体   English   中英

哪个用于处理 sagemaker 批量推理管道的数据 - SKlearnEstimator 或 SKlearnProcessor

[英]which one to use to process data for sagemaker batch inferencing pipeline - SKlearnEstimator or SKlearnProcessor

我正在构建一个 Sagemaker 批量推理管道,并对使用sagemaker.sklearn.processing.SKLearnProcessorsagemaker.sklearn.estimator.SKLearn之间处理特征(推理前)的选项感到困惑我对这两个选项的理解是:

有来自 aws 的文档使用sagemaker.sklearn.estimator.SKLearn进行批量转换来处理数据。 使用此 class 及其.create_model()方法的优点是我可以将创建的模型(在推理之前处理该功能)合并到部署在端点上的sagemaker.pipeline.PipelineModel 所以整个管道在推理请求输入时被调用的单个端点后面。详细信息来自: https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-python-sdk/scikit_learn_inference_pipeline/Inference%20Pipeline% 20with%20Scikit-learn%20and%20Linear%20Learner.html具体cons我也不知道,就是第一个问题(1)。

但是,如果仅用于数据处理,我还可以使用sagemaker.sklearn.processing.SKLearnProcessor创建 Sagemaker Processing 作业来处理特征,然后转储到 model 的 s3 以进行批量推理。 对我来说,优点是拥有一份专为处理而设计的工作对我来说更有意义,但缺点是,与 sagemaker.sklearn.estimator 不同,我似乎必须编写一个处理程序来管道处理和推理自己。学习。 https://sagemaker-examples.readthedocs.io/en/latest/sagemaker_processing/scikit_learn_data_processing_and_model_evaluation/scikit_learn_data_processing_and_model_evaluation.html那么,我的下一个问题 (2) 是否有一种模型方法可以让 SKLearnProcessor 参与 sagePipemaker.pipeline? 如果不是,接下来的问题 (3) 是,如果 SKLearnProcessor 不是为在推理中使用而设计的,它的用例是什么。

最后一个问题 (4) 是,从效率的角度来看,在 Sagemaker 批量推理管道中使用每种方法的优缺点是什么?

  1. SageMaker 推理管道是 SageMaker 托管的一项功能,您可以借此在端点和/或批量转换作业上创建串行推理管道(容器链)。

关于您共享的链接,一种常见的模式是使用两个容器,其中一个容器托管 Scikit-learn model,这将作为预处理步骤,然后将请求传递到第二个容器,该容器在端点或批处理上托管 model转变工作。

  1. SKLearnProcessor用于启动 SKLearn 处理作业。 您可以使用带有处理脚本的 SKLearnProcessor 来处理您的数据。 因此,SKLearnProcessor 不能用于串行推理管道 ( sagemaker.pipeline.PipelineModel )。

  2. 如上所述, SKLearnProcessor旨在启动 SageMaker 处理作业,该作业利用可用于数据预处理或后处理的 Scikit-learn 容器和 model 评估工作负载。 请参阅此链接以获取更多信息。

  3. 您是否正在尝试决定是使用SKLearnProcessor (处理作业)处理您的数据,还是使用包含批量转换作业中预处理步骤的PipelineModel

如果是这样,做出决定取决于您的用例。 如果您要使用处理作业 ( SKLearnProcessor ),则需要在批量转换作业之前启动该作业。 处理作业完成后,您可以使用处理作业的 output 作为批量转换作业的输入来启动批量转换作业。

另一方面,如果您要使用串行推理管道 ( sagemaker.pipeline.PipelineModel ),那么您只需要确保第一个容器预处理请求以确保它符合 model 的预期。 此选项需要在批处理转换作业本身内根据请求完成处理。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM