Triton - 《AI算法落地与工程部署》

三大特性
简化模型部署
动态可扩展性 (Dynamic Scalability)
Triton 是推理服务的首选
Resources

NVIDIA Triton™ Inference Server 简化了 AI 模型在生产中的大规模部署流程。同时作为开源推理服务软件，它让团队可以在任何基于 GPU 或 CPU 的基础设施（云、数据中心或边缘）上部署训练过的AI模型（TensorFlow、TensoRT、ONNX Runtime、custom）。

Triton介绍视频链接：
https://youtu.be/Q9mhNqDSqlE

三大特性

支持多种框架

Triton Inference Server 支持所有主要框架，如 TensorFlow、TensorRT、PyTorch、ONNX Runtime，甚至自定义框架后端。它为可以让AI 研究人员和数据科学家自由选择框架。

高性能推理

Triton 在 GPU 上同时运行模型以最大限度地提高利用率，支持基于 CPU 的推理，并提供模型集成和流式推理等高级功能。

Designed for IT, DevOps, and MLOps

Triton 作为 Docker 容器提供，与 Kubernetes 集成以进行编排和扩展，是 Kubeflow 的一部分，导出 Prometheus 指标以进行监控，并可与 Azure ML 和 Google CAIP 等云 AI 平台一起使用。它有助于 IT/DevOps 简化streamline生产中的模型部署。

简化模型部署

Triton 可以从本地存储或云平台加载模型。尽管使用新数据重新训练了模型，开发人员仍然可以轻松进行更新，而无需重新启动推理服务器或中断应用程序。

Triton 在单个 GPU 或 CPU 上同时运行来自相同或不同框架的多个模型。在多 GPU 服务器中，它会自动为每个 GPU 上的每个模型创建一个实例，以提高利用率，而无需额外代码。

它支持实时推理、批量推理以最大限度地提高 GPU/CPU 利用率，以及内置支持音频流输入的流推理。它还支持模型集成，用于需要多个模型来执行端到端推理的场景，例如对话式 AI。

用户还可以使用共享内存。Triton 的输入和输出存储在共享内存中，从而减少 HTTP/gRPC 开销并提高性能。
Triton - 图1

首先来看Triton的接入层，图中C API部分。可以看到Triton支持HTTP/REST和GRPC协议。其实除此之外，Triton还支持共享内存（Shared Memory）的IPC（Inter-Process Communication）通信机制。
接下来看到模型仓库，图中Model Repository部分。按照Triton的官方文档所述，模型仓库可以是本地的持久化存储介质（磁盘），也可以接入Google Cloud Platform或者AWS S3的模型仓库。还需要注意：Triton的模型仓库支持多模型、也支持模型编排。
再接下来看Triton的预编排，图中Pre-Model Scheduler Queues部分。笔者理解这块的核心内容就是模型编排：通过解析请求的URL，从模型仓库查询到编排信息，执行模型编排。
然后再来看前向推理计算，图中的Framework Backends部分。Triton框架支持TensorFlow, TensorRT, PyTorch, ONNX Runtime推理引擎，也支持用户扩展自己的推理引擎，Triton统一把它们称为“Backend”，笔者翻译为“推理引擎”，请注意：每一种框架都是一种Backend（推理引擎）。Backend（推理引擎）实际上就是各个框架的C++ API，不清楚英伟达有没有做底层的优化。需要注意一点：在Triton以开始启动时，模型仓库中的模型就已经被加载到内存或者显存上了；因此，每一次来推理请求的时候，只需要在内存或者显存中遍历一次模型做前向计算即可（这个是推理服务的常规操作，因为模型的加载非常耗时）。
再来看结果返回，对应图中Inference Response部分。即把最终结果返回给客户端。
最后，来看Status/Health Metrics Export部分，这块就是Triton支持接入Prometheus监控的地方。

https://zhuanlan.zhihu.com/p/354058294

动态可扩展性 (Dynamic Scalability)

Triton 也可用作 Docker 容器，与 Kubernetes 集成以进行模型编排、指标和自动缩放。它还与 Kubeflow 和 Kubeflow pipeline 集成，以实现端到端的 AI 工作流程。它导出 Prometheus 指标，用于监控 GPU 利用率、延迟、内存使用情况和推理吞吐量。它支持标准的 HTTP/gRPC 接口以连接其他应用程序，如负载均衡器。它可以轻松扩展到任意数量的服务器，以处理任何模型不断增加的推理负载。

Triton 可以通过模型控制 API 为数十或数百个模型提供服务。根据GPU内存或者CPU内存的变化情况，自动将模型加载进推理服务或在推理服务中卸载此模型。

同时支持具有 GPU 和 CPU 的异构集群有助于标准化跨平台推理并动态扩展到任何 CPU 或 GPU 以处理峰值负载。
Triton - 图2
在 GitHub 上查看最新的 Triton 发布信息。

Triton 是推理服务的首选

人工智能正在推动各种规模的企业的创新。作为开源软件解决方案，Triton 是 AI 推理和模型部署的首选。 Triton 得到阿里云、Amazon Elastic Kubernetes Service (EKS)、Google Kubernetes Engine (GKE)、Google Cloud AI Platform、Microsoft Azure Kubernetes Service (AKS)、Azure Machine Learning 和腾讯云的支持。
了解为什么企业应该使用 Triton。


简化 AI 模型在生产中的大规模部署。	深度学习推理平台	部署 AI 深度学习模型
了解 Triton 如何应对部署 AI 模型的挑战，并查看 Triton 入门步骤。	实现对支持下一代 AI 产品和服务（在云、数据中心和边缘）至关重要的性能、效率和响应能力。	在 NVIDIA 开发人员博客上获取最新消息和更新、发行说明重点以及使用 Triton 推理服务器和 NGC™ 开源软件的主要优势。

深度学习推理平台用于云、数据中心、边缘和自主机器的推理软件和加速器
NVIDIA 赢得 AI 推理基准测试，扩大 AI 领先地位

更快的人工智能更低的成本。

人们对图像和语音识别、自然语言处理、视觉搜索和个性化推荐等复杂的AI服务的需求不断增长。与此同时，数据集不断增长，网络变得越来越复杂，延迟要求越来越严格，很难满足用户的期望。

NVIDIA 的推理平台提供的性能、效率和响应能力对于支持下一代 AI 产品和服务（在云、数据中心、网络边缘和自主机器中）至关重要。

借助 NVIDIA TensorRT 释放 NVIDIA GPU 的全部潜力
NVIDIA® TensorRT™ 是一种高性能推理平台，是释放 NVIDIA Tensor Core GPU 强大功能的关键。与仅使用 CPU 的平台相比，它提供高达 40 倍的吞吐量，同时最大限度地减少延迟。使用 TensorRT，您可以从任何框架开始，并在生产中快速优化、验证和部署经过训练的神经网络。 TensorRT 也可在 NVIDIA NGC catalog 中找到。

使用 NVIDIA TRITON 推理服务器简化部署
NVIDIA Triton 推理服务器，以前称为 TensorRT 推理服务器，是一种开源软件，可简化深度学习模型在生产中的部署。

Triton Inference Server让团队可以在任何基于 GPU 或 CPU 的基础设施上部署来自本地存储、谷歌云平台或 AWS S3 的任何框架（TensorFlow、PyTorch、TensorRT Plan、Caffe、MXNet 或自定义）的训练过的 AI 模型。它在单个 GPU 上同时运行多个模型以最大限度地提高利用率，并与 Kubernetes 集成以进行编排、指标和自动缩放。

强大的、统一的、可扩展的深度学习推理
通过一个统一的架构，每个深度学习框架上的神经网络都可以训练，使用 NVIDIA TensorRT 进行优化，然后部署在边缘进行实时推理。

借助 NVIDIA DGX™ 系统、NVIDIA Tensor Core GPU、NVIDIA Jetson™ 和 NVIDIA DRIVE™，NVIDIA 提供了一个端到端、完全可扩展的深度学习平台，如 MLPerf 基准测试套件所示。

大规模的成本节省
为了使服务器保持最高生产力，数据中心经理必须在性能和效率之间做出权衡。单个 NVIDIA T4 服务器可以替代多个商用 CPU 服务器，用于深度学习推理应用程序和服务，从而降低能源需求并节省采购和运营成本。

Resources

[

](https://www.nvidia.com/en-us/deep-learning-ai/solutions/inference-platform/)