繁体   English   中英

用于 SageMaker 推理的 NVIDIA Triton 与 TorchServe

[英]NVIDIA Triton vs TorchServe for SageMaker Inference

NVIDIA Triton vs TorchServe用于 SageMaker 推理? 什么时候推荐?

两者都是现代的生产级推理服务器。 TorchServe 是 PyTorch 模型的 DLC 默认推理服务器。 Triton 也支持在 SageMaker 上进行 PyTorch 推理。

任何人都有一个很好的比较矩阵?

要在此处添加两个服务堆栈不同的重要说明:

TorchServe 不提供 Triton 提供的实例组功能(即将相同 model 甚至不同模型的多个副本堆叠到同一个 GPU 上)。 这是实时和批处理用例的主要优势,因为性能提升几乎与 model 复制计数成正比(即 model 的 2 个副本为您带来几乎两倍的吞吐量和一半的延迟;查看 BERT 基准这里)。 很难以一个价格匹配一个几乎就像拥有 2 个以上 GPU 的功能。 如果您正在部署 PyTorch DL 模型,您可能经常希望使用 GPU 来加速它们。 TensorRT (TRT) 是由 NVIDIA 开发的编译器,可自动量化和优化您的 model 图,这代表了另一个巨大的加速,具体取决于 GPU 架构和 Z20F35E630DAF44DBFA4C3F68F5399D8。 可以理解,这可能是自动优化 model 以在 GPU 上高效运行并充分利用 TensorCores 的最佳方式。 Triton 具有运行被称为 TensorRT 引擎的本机集成(甚至通过配置文件自动将您的 model 转换为 TRT 引擎),而 TorchServe 没有(即使您可以使用 TRT 引擎)。 当涉及到其他重要的服务功能时,两者之间有更多的平等:两者都支持动态批处理,您可以使用两者定义推理 DAG(不确定后者是否可以轻松地在 SageMaker 上与 TorchServe 一起使用),并且都支持自定义代码/handlers 而不是仅仅能够为模型的前向 function 服务。

最后,GPU(即将推出)上的 MME 将基于 Triton,这是客户熟悉它的有效论据,以便他们可以快速利用这一新功能进行成本优化。

底线我认为 Triton 使用起来同样简单(如果不是更容易的话),更优化/集成以充分利用底层硬件(并且随着更新的 GPU 架构的发布,将进行更新以保持这种方式,使一个简单的移动),并且通常在组合使用其优化功能时将 TorchServe 从性能方面吹走。

因为我没有足够的声誉在评论中回复,所以我写在答案中。 MME 是多模型端点。 MME 支持跨多个模型在端点后面共享 GPU 个实例,并根据传入流量动态加载和卸载模型。 您可以在此链接中进一步阅读

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM