繁体 English 中英

用于 SageMaker 推理的 NVIDIA Triton 与 TorchServe

[英]NVIDIA Triton vs TorchServe for SageMaker Inference

原文 2022-09-23 14:28:58 9 2 amazon-sagemaker/ inference/ tritonserver/ torchserve/ amazon-sagemaker-model-servers

NVIDIA Triton vs TorchServe用于 SageMaker 推理？ 什么时候推荐？

两者都是现代的生产级推理服务器。 TorchServe 是 PyTorch 模型的 DLC 默认推理服务器。 Triton 也支持在 SageMaker 上进行 PyTorch 推理。

任何人都有一个很好的比较矩阵？

2 个解决方案

要在此处添加两个服务堆栈不同的重要说明：

TorchServe 不提供 Triton 提供的实例组功能（即将相同 model 甚至不同模型的多个副本堆叠到同一个 GPU 上）。 这是实时和批处理用例的主要优势，因为性能提升几乎与 model 复制计数成正比（即 model 的 2 个副本为您带来几乎两倍的吞吐量和一半的延迟；查看 BERT 基准这里）。 很难以一个价格匹配一个几乎就像拥有 2 个以上 GPU 的功能。 如果您正在部署 PyTorch DL 模型，您可能经常希望使用 GPU 来加速它们。 TensorRT (TRT) 是由 NVIDIA 开发的编译器，可自动量化和优化您的 model 图，这代表了另一个巨大的加速，具体取决于 GPU 架构和 Z20F35E630DAF44DBFA4C3F68F5399D8。 可以理解，这可能是自动优化 model 以在 GPU 上高效运行并充分利用 TensorCores 的最佳方式。 Triton 具有运行被称为 TensorRT 引擎的本机集成（甚至通过配置文件自动将您的 model 转换为 TRT 引擎），而 TorchServe 没有（即使您可以使用 TRT 引擎）。 当涉及到其他重要的服务功能时，两者之间有更多的平等：两者都支持动态批处理，您可以使用两者定义推理 DAG（不确定后者是否可以轻松地在 SageMaker 上与 TorchServe 一起使用），并且都支持自定义代码/handlers 而不是仅仅能够为模型的前向 function 服务。

最后，GPU（即将推出）上的 MME 将基于 Triton，这是客户熟悉它的有效论据，以便他们可以快速利用这一新功能进行成本优化。

底线我认为 Triton 使用起来同样简单（如果不是更容易的话），更优化/集成以充分利用底层硬件（并且随着更新的 GPU 架构的发布，将进行更新以保持这种方式，使一个简单的移动），并且通常在组合使用其优化功能时将 TorchServe 从性能方面吹走。

因为我没有足够的声誉在评论中回复，所以我写在答案中。 MME 是多模型端点。 MME 支持跨多个模型在端点后面共享 GPU 个实例，并根据传入流量动态加载和卸载模型。 您可以在此链接中进一步阅读

服务 TorchScript model 的 Triton 推理服务器

[英]Triton inference server serving TorchScript model

SageMaker 推理未找到模型 pkl

[英]Model pkl not found by SageMaker inference

Sagemaker pytorch 推理在 gpu 上的模型调用处停止

[英]Sagemaker pytorch inference stops at model call on gpu

使用第三方库的 Sagemaker 端点推断

[英]Sagemaker endpoint inference with third-party libraries

AWS Sagemaker 自定义 PyTorch model 对原始图像输入的推理

[英]AWS Sagemaker custom PyTorch model inference on raw image input

NVIDIA vs PyTorch 版本的 cuDNN

[英]NVIDIA vs PyTorch versions of cuDNN

pytorch CUDA 版本与 Nvidia CUDA 版本

[英]pytorch CUDA version vs. Nvidia CUDA version

如何在 torchserve 中创建自定义处理程序？

[英]How do I create a custom handler in torchserve?

PyTorch `torch.no_grad` 与 `torch.inference_mode`

[英]PyTorch `torch.no_grad` vs `torch.inference_mode`

制作预测智者火炬

[英]Making a Prediction Sagemaker Pytorch

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 服务 TorchScript model 的 Triton 推理服务器 SageMaker 推理未找到模型 pkl Sagemaker pytorch 推理在 gpu 上的模型调用处停止使用第三方库的 Sagemaker 端点推断 AWS Sagemaker 自定义 PyTorch model 对原始图像输入的推理 NVIDIA vs PyTorch 版本的 cuDNN pytorch CUDA 版本与 Nvidia CUDA 版本如何在 torchserve 中创建自定义处理程序？ PyTorch `torch.no_grad` 与 `torch.inference_mode` 制作预测智者火炬

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM