NVIDIA Triton™ Inference Server 简化了 AI 模型在生产中的大规模部署流程。同时作为开源推理服务软件,它让团队可以在任何基于 GPU 或 CPU 的基础设施(云、数据中心或边缘)上部署训练过的AI模型(TensorFlow、TensoRT、ONNX Runtime、custom)。
Triton介绍视频链接:
https://youtu.be/Q9mhNqDSqlE
三大特性
- 支持多种框架
Triton Inference Server 支持所有主要框架,如 TensorFlow、TensorRT、PyTorch、ONNX Runtime,甚至自定义框架后端。 它为可以让AI 研究人员和数据科学家自由选择框架。
- 高性能推理
Triton 在 GPU 上同时运行模型以最大限度地提高利用率,支持基于 CPU 的推理,并提供模型集成和流式推理等高级功能。
- Designed for IT, DevOps, and MLOps
Triton 作为 Docker 容器提供,与 Kubernetes 集成以进行编排和扩展,是 Kubeflow 的一部分,导出 Prometheus 指标以进行监控,并可与 Azure ML 和 Google CAIP 等云 AI 平台一起使用。它有助于 IT/DevOps 简化streamline
生产中的模型部署。
简化模型部署
Triton 可以从本地存储或云平台加载模型。尽管使用新数据重新训练了模型,开发人员仍然可以轻松进行更新,而无需重新启动推理服务器或中断应用程序。
Triton 在单个 GPU 或 CPU 上同时运行来自相同或不同框架的多个模型。在多 GPU 服务器中,它会自动为每个 GPU 上的每个模型创建一个实例,以提高利用率,而无需额外代码。
它支持实时推理、批量推理以最大限度地提高 GPU/CPU 利用率,以及内置支持音频流输入的流推理。它还支持模型集成,用于需要多个模型来执行端到端推理的场景,例如对话式 AI。
用户还可以使用共享内存。Triton 的输入和输出存储在共享内存中,从而减少 HTTP/gRPC 开销并提高性能。
- 首先来看Triton的接入层,图中C API部分。可以看到Triton支持HTTP/REST和GRPC协议。其实除此之外,Triton还支持共享内存(Shared Memory)的IPC(Inter-Process Communication)通信机制。
- 接下来看到模型仓库,图中Model Repository部分。按照Triton的官方文档所述,模型仓库可以是本地的持久化存储介质(磁盘),也可以接入Google Cloud Platform或者AWS S3的模型仓库。还需要注意:Triton的模型仓库支持多模型、也支持模型编排。
- 再接下来看Triton的预编排,图中Pre-Model Scheduler Queues部分。笔者理解这块的核心内容就是模型编排:通过解析请求的URL,从模型仓库查询到编排信息,执行模型编排。
- 然后再来看前向推理计算,图中的Framework Backends部分。Triton框架支持TensorFlow, TensorRT, PyTorch, ONNX Runtime推理引擎,也支持用户扩展自己的推理引擎,Triton统一把它们称为“Backend”,笔者翻译为“推理引擎”,请注意:每一种框架都是一种Backend(推理引擎)。Backend(推理引擎)实际上就是各个框架的C++ API,不清楚英伟达有没有做底层的优化。需要注意一点:在Triton以开始启动时,模型仓库中的模型就已经被加载到内存或者显存上了;因此,每一次来推理请求的时候,只需要在内存或者显存中遍历一次模型做前向计算即可(这个是推理服务的常规操作,因为模型的加载非常耗时)。
- 再来看结果返回,对应图中Inference Response部分。即把最终结果返回给客户端。
- 最后,来看Status/Health Metrics Export部分,这块就是Triton支持接入Prometheus监控的地方。
动态可扩展性 (Dynamic Scalability)
Triton 也可用作 Docker 容器,与 Kubernetes 集成以进行模型编排、指标和自动缩放。它还与 Kubeflow 和 Kubeflow pipeline 集成,以实现端到端的 AI 工作流程。它导出 Prometheus 指标,用于监控 GPU 利用率、延迟、内存使用情况和推理吞吐量。它支持标准的 HTTP/gRPC 接口以连接其他应用程序,如负载均衡器。它可以轻松扩展到任意数量的服务器,以处理任何模型不断增加的推理负载。
Triton 可以通过模型控制 API 为数十或数百个模型提供服务。根据GPU内存或者CPU内存的变化情况,自动将模型加载进推理服务或在推理服务中卸载此模型。
同时支持具有 GPU 和 CPU 的异构集群有助于标准化跨平台推理并动态扩展到任何 CPU 或 GPU 以处理峰值负载。
在 GitHub 上查看最新的 Triton 发布信息。
Triton 是推理服务的首选
人工智能正在推动各种规模的企业的创新。作为开源软件解决方案,Triton 是 AI 推理和模型部署的首选。 Triton 得到阿里云、Amazon Elastic Kubernetes Service (EKS)、Google Kubernetes Engine (GKE)、Google Cloud AI Platform、Microsoft Azure Kubernetes Service (AKS)、Azure Machine Learning 和腾讯云的支持。
了解为什么企业应该使用 Triton。
![]() |
![]() |
![]() |
---|---|---|
简化 AI 模型在生产中的大规模部署。 | 深度学习推理平台 | 部署 AI 深度学习模型 |
了解 Triton 如何应对部署 AI 模型的挑战,并查看 Triton 入门步骤。 | 实现对支持下一代 AI 产品和服务(在云、数据中心和边缘)至关重要的性能、效率和响应能力。 | 在 NVIDIA 开发人员博客上获取最新消息和更新、发行说明重点以及使用 Triton 推理服务器和 NGC™ 开源软件的主要优势。 |
深度学习推理平台 用于云、数据中心、边缘和自主机器的推理软件和加速器
NVIDIA 赢得 AI 推理基准测试,扩大 AI 领先地位
更快的人工智能 更低的成本。
人们对图像和语音识别、自然语言处理、视觉搜索和个性化推荐等复杂的AI服务的需求不断增长。与此同时,数据集不断增长,网络变得越来越复杂,延迟要求越来越严格,很难满足用户的期望。
NVIDIA 的推理平台提供的性能、效率和响应能力对于支持下一代 AI 产品和服务(在云、数据中心、网络边缘和自主机器中)至关重要。
借助 NVIDIA TensorRT 释放 NVIDIA GPU 的全部潜力
NVIDIA® TensorRT™ 是一种高性能推理平台,是释放 NVIDIA Tensor Core GPU 强大功能的关键。与仅使用 CPU 的平台相比,它提供高达 40 倍的吞吐量,同时最大限度地减少延迟。使用 TensorRT,您可以从任何框架开始,并在生产中快速优化、验证和部署经过训练的神经网络。 TensorRT 也可在 NVIDIA NGC catalog 中找到。
使用 NVIDIA TRITON 推理服务器简化部署
NVIDIA Triton 推理服务器,以前称为 TensorRT 推理服务器,是一种开源软件,可简化深度学习模型在生产中的部署。
Triton Inference Server让团队可以在任何基于 GPU 或 CPU 的基础设施上部署来自本地存储、谷歌云平台或 AWS S3 的任何框架(TensorFlow、PyTorch、TensorRT Plan、Caffe、MXNet 或自定义)的训练过的 AI 模型。它在单个 GPU 上同时运行多个模型以最大限度地提高利用率,并与 Kubernetes 集成以进行编排、指标和自动缩放。
强大的、统一的、可扩展的深度学习推理
通过一个统一的架构,每个深度学习框架上的神经网络都可以训练,使用 NVIDIA TensorRT 进行优化,然后部署在边缘进行实时推理。
借助 NVIDIA DGX™ 系统、NVIDIA Tensor Core GPU、NVIDIA Jetson™ 和 NVIDIA DRIVE™,NVIDIA 提供了一个端到端、完全可扩展的深度学习平台,如 MLPerf 基准测试套件所示。
大规模的成本节省
为了使服务器保持最高生产力,数据中心经理必须在性能和效率之间做出权衡。单个 NVIDIA T4 服务器可以替代多个商用 CPU 服务器,用于深度学习推理应用程序和服务,从而降低能源需求并节省采购和运营成本。
Resources
[
](https://www.nvidia.com/en-us/deep-learning-ai/solutions/inference-platform/)