产品简介

反馈

首页人工智能平台 PAI 操作指南 AI计算资源灵骏智算资源（单租户版）产品简介PAI灵骏智算服务概述

PAI灵骏智算服务概述

更新时间：2024-02-19 17:43:27

PAI灵骏是一种大规模高密度计算服务，全称“PAI灵骏智算服务”，提供高性能AI训练、高性能计算所需的异构计算算力服务。PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。您只需为AI训练所消耗的资源付费，无需建设、调优和运维复杂的计算节点、存储及RDMA网络，即可使用高扩展性、高性能、高性价比的智能计算基础设施环境。

产品架构

灵均 - 图1

PAI灵骏是软硬件一体化设计的算力集群服务，硬件涵盖了服务器、网络、存储以及集群的整体交付管理等，软件包括算力资源管控运维、AI加速套件、云原生任务管理，以及完善的AI开发作业平台，支持Pytorch、TensorFlow等常见AI框架。
PAI灵骏的底层硬件核心组件由磐久服务器和高性能RDMA网络两部分组成： - 服务器采用阿里云自研的磐久服务器，在核心配置上进行多项优化，充分保证硬件的性能释放。 - 网络支持常见的Fat-Tree网络拓扑，支持TCP/IP和RDMA等多种通信协议。其中，PAI灵骏25G网络和100G网络独立组网；25G网络用于服务器带内管理，100G网络的多个网卡用于AI训练业务的高效通信。为提升PAI灵骏网络可用性，PAI灵骏支持双上联组网，每个网卡的两个端口分别接到两个交换机上，在连接出现故障时可自动切换，保证网络可用性。
软件架构自底向上包括资源管理、计算加速库、机器学习和深度学习框架、开发环境以及任务管理等多个部分。 - 资源管理部分，PAI灵骏通过容器技术（Docker）进行资源的划分和调度，并兼容Kubernetes（K8s）等编排工具。 - 系统的运维和监控，采用阿里巴巴的天基系统对集群的底层资源和状态进行实时监控。 - 支持加速库，主要对PAI灵骏集群的通信进行了深度的定制优化。 - 计算系统支持任务的界面化提交和任务日志查看，支持主流的AI计算框架，例如：PyTorch、TensorFlow等。

为什么选择PAI灵骏

选择PAI灵骏，您可以轻松构建具有以下优势的智能集群：

算力即服务。提供高性能、高弹性异构算力服务，支持万张GPU规模的资源弹性，单集群网络容量高达4Pbps，时延低至2微秒。
高资源效率。资源利用率提升3倍，并行计算效率提升90%以上。
融合算力池。支持AI+HPC场景算力的统一分配和融合调度，无缝连接。
算力管理监控。为异构算力深度定制IT运维管理平台，实现异构算力到池化资源到使用效率的全流程监控管理。

产品优势

加速AI创新。全链路性能提速，计算密集型项目迭代效率可提升2倍以上。
最大化ROI。高效的池化异构算力调度技术，确保每一份算力投入都能得到充分利用，资源利用率可提升3倍。
无惧规模挑战。轻松应对大模型和大规模工程仿真的算力需求，让创新不受算力限制。
可视又可控。简单地管理异构算力的分配，并持续地监控和优化。

应用场景

PAI灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。

大规模分布式训练。 - 超大规模GPU算力系统。全对等网络架构，全资源池化，可以搭配PAI（机器学习平台）使用，支持多种训练框架（Pytorch、TensorFlow、Caffe、Keras、XGBoost、Mxnet等），可以满足多种规模的AI训练和推理业务。 - AI基础设施。 平滑扩容。满足不同规模GPU算力需求，平滑扩容，性能线性拓展。 智能数据加速。针对AI训练场景提供数据智能加速，主动预热训练所需数据，提升训练效率。 * 更高资源利用率。支持异构资源细粒度管控，提升资源周转效率。
自动驾驶。 - 丰富的部署和调度策略。多种GPU资源调度策略，保证训练任务高效执行。文件存储CPFS（Cloud Paralleled File System）搭配RDMA网络架构，保证训练数据供给和计算IO；并可使用OSS分级存储降低归档数据存储成本。 - 同时支持训练和仿真场景。融合算力智能供应，同时支持训练仿真两种场景，从协同模式上提升迭代效率，降低数据迁移成本。
科学智能。 - 拓展提升创新上限。基于数据中心超大规模RDMA“高速网”和通信流控技术，实现端到端微秒级通信时延，超大规模线性拓展可打造万卡级并行算力。 - 融合生态，拓展创新边界。支持HPC和AI任务融合调度，为科研和AI提供统一协同的底座支撑，促进技术生态融合。 - 云上科研，普惠算力。支持云原生和容器化的AI和HPC应用生态，资源深度共享，普惠的智能算力触手可得。

功能特性

高速RDMA网络架构。阿里巴巴2016年开始投入专项研究RDMA（Remote Direct Memory Access），目前已建成大规模数据中心内的“高速网”，通过大规模RDMA网络部署实践，阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过智能网卡实现了协议硬件卸载，降低了端到端网络延时，提升了网络IO吞吐能力，并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。
高性能集合通信库ACCL。PAI灵骏支持高性能集合通信库ACCL（Alibaba Collective Communication Library），结合硬件（例如：网络交换机），对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法，彻底消除网络拥塞，提升网络通信效率，提高分布式训练系统的扩展性。在万卡规模下，可达80%以上的线性集群能力。在百卡规模下，有效（计算）性能可达95%以上，可满足80%以上的业务场景需求。
高性能数据主动加载加速软件KSpeed。PAI灵骏基于高性能网络RDMA和高性能通信ACCL，研发高性能数据主动加载加速软件KSpeed，进行智能数据IO优化。计算存储分离架构广泛存在于AI、HPC、大数据业务场景中，但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed，实现数据IO数量级性能提升。
GPU容器虚拟化方案eGPU。针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，PAI灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下： - 支持显存、算力双维度自由切分。 - 支持多个规格。 - 支持动态创建、销毁。 - 支持热升级。 - 支持用户态技术，保证更高可靠性。

PAI灵骏网络使用限制

限制项	限制	提升配额方式
单个账号在同一地域支持创建的灵骏网段数量	8	具体操作，请参见管理配额。
单个灵骏网段支持创建的灵骏子网数量	16	具体操作，请参见管理配额。
单个灵骏子网内的灵骏节点数量	1000	无
单个灵骏网段内的灵骏节点数量	1000	无
灵骏网段和灵骏子网支持配置的网段	可以使用除100.64.0.0/10、224.0.0.0/4、127.0.0.0/8或169.254.0.0/16及其子网外的自定义地址段作为灵骏网段。	无
单个账号在同一地域支持创建的灵骏连接实例数量	16	无
单个灵骏连接实例从公共云学习的IPv4路由条目数	50	无
单个灵骏连接实例从公共云学习的IPv6路由条目数	25	无
单个账号在同一地域支持创建的灵骏HUB实例数量	4	具体操作，请参见管理配额。
单个灵骏网段支持连接的灵骏HUB数量	1	具体操作，请参见管理配额。
单个灵骏连接支持连通的灵骏HUB实例数量	1	具体操作，请参见管理配额。
单个灵骏HUB实例支持连通的灵骏连接数量	32	具体操作，请参见管理配额。
单个灵骏HUB实例支持的同一地域所有灵骏网段中的灵骏节点数量	2000	无
单个灵骏HUB支持配置的路由策略条目数量	100	无
单个灵骏网卡支持的辅助私网IP数量	3	具体操作，请参见管理配额。

产品规格与开通

开通：PAI灵骏智算服务目前处于定向公测阶段，阿里云业务人员会主动为需要购买的用户提供商品购买链接，并提供控制台管理员账号。开通PAI灵骏的流程，请参见开通灵骏。
计费：PAI灵骏智算服务包含固费分期和包年包月模式。详细计费说明请参见产品计费。
首页人工智能平台 PAI 操作指南 AI计算资源灵骏智算资源（单租户版）产品简介功能特性

功能特性

更新时间：2023-02-20 11:36:24

灵骏满足AI、HPC等计算密集场景需要的高性能算力，可实现高性能、大规模的池化算力，满足自动驾驶、科研、金融、生物制药等多行业的异构算力需求。本文为您介绍灵骏的功能特性。

高速RDMA网络架构

阿里巴巴2016年开始投入专项研究RDMA（Remote Direct Memory Access），以改造RDMA，提高传输性能。目前已建成大规模数据中心内的“高速网”，时延降低90%，支撑了高性能存储、AI计算等阿里云业务和阿里巴巴集团内部业务。同时，通过大规模RDMA网络部署实践，阿里云自主研发了基于端网协同的RDMA高性能网络协议和HPCC拥塞控制算法，并通过智能网卡实现了协议硬件卸载，降低了端到端网络延时，提升了网络IO吞吐能力，并有效规避和弱化了网络故障、网络黑洞等传统网络异常给上层应用带来的性能损失。

高性能集合通信库ACCL

灵骏支持高性能集合通信库ACCL（Alibaba Collective Communication Library），结合硬件（例如：网络交换机），对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。在AI集群层面，通讯的碰撞是计算延迟的主要来源。除了架设集群通信的“高速公路”（即RDMA高速网）外，还需要进行合理的通讯调度，避免“堵车”。阿里云通过通信库ACCL实现了GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法，彻底消除网络拥塞，提升网络通信效率，提高分布式训练系统的扩展性。在万卡规模下，可达80%以上的线性集群能力。在百卡规模下，有效（计算）性能可达95%以上，可满足80%以上的业务场景需求。

高性能数据主动加载加速软件KSpeed

灵骏基于高性能网络RDMA和高性能通信ACCL，研发高性能数据主动加载加速软件KSpeed，进行智能数据IO优化。计算存储分离架构广泛存在于AI、HPC、大数据业务场景中，但大量训练数据的加载容易形成效率瓶颈。阿里云通过高性能数据主动加载加速软件KSpeed，实现数据IO数量级性能提升。例如：在部分场景中，数据加载耗时可占据训练整体时长60%以上，KSpeed能够实现内存级数据主动预加载，数据加载时长缩减到10%以内，相当于把单位时间内的计算性能提升了1倍。

GPU容器虚拟化方案eGPU

针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下：

支持显存、算力双维度自由切分。
支持多个规格。
支持动态创建、销毁。
支持热升级。
支持用户态技术，保证更高可靠性。

应用场景

更新时间：2024-03-11 16:39:25

灵骏主要面向图形图像识别、自然语言处理、搜索广告推荐、通用大模型等大规模分布式的AI研发场景，适用于自动驾驶、金融风控、药物研发、科学智能、元宇宙、互联网和ISV等行业。

大规模分布式训练

灵均 - 图2

高性能打造AI进化底座。超大规模GPU算力系统，全对等网络架构，全资源池化，可以搭配PAI（机器学习平台）使用，支持多种训练框架（Pytorch、TensorFlow、Caffe、Keras、Xgboost、Mxnet等），可以满足多种规模的AI训练和推理业务。
AI基础设施。
- 平滑扩容。满足不同规模GPU算力需求，平滑扩容，性能线性拓展。
- 智能数据加速。针对AI训练场景提供数据智能加速，主动预热训练所需数据，提升训练效率。
- 更高的资源利用率。支持异构资源细粒度管控，提升资源周转效率。

自动驾驶

灵均 - 图3

训练仿真，一站打通。
全场景支持，安全合规。 - 丰富的部署和调度策略。多种GPU资源调度策略，保证训练任务高效执行。 - 高性能、高吞吐的存储能力。文件存储CPFS（Cloud Paralleled File System）搭配RDMA网络架构，保证训练数据供给和计算IO；并可使用OSS分级存储降低归档数据存储成本。 - 同时支持训练和仿真场景。融合算力智能供应，同时支持训练仿真两种场景，从协同模式上提升迭代效率，降低数据迁移成本。

科学智能

灵均 - 图4

融合算力，多元创新。
深化协同拓展创新边界。 - 拓展提升创新上限。基于数据中心超大规模RDMA“高速网”和通信流控技术，实现端到端微秒级通信时延，超大规模线性拓展可打造万卡级并行算力。 - 融合生态，拓展创新边界。支持HPC和AI任务融合调度，为科研和AI提供统一协同的底座支撑，促进技术生态融合。 - 云上科研，普惠算力。支持云原生和容器化的AI和HPC应用生态，资源深度共享，普惠的智能算力触手可得。

反馈

上一篇：功能特性

基本概念

更新时间：2024-02-19 14:01:48

本文为您介绍灵骏中用到的基本概念，帮助您正确理解和使用。使用灵骏的过程中，您可以根据业务需求规划多个集群，集群可进一步细化为节点分组，通过对集群、节点的规划来高效率利用节点资源。

灵均 - 图5

概念	说明

概念	说明
集群	集群是带有灵骏优化套件的高性能的异构加速计算节点的集合，集群中的各节点间通过800 Gbps高速低延迟RDMA网络进行互联通信。用户可以使用原生的物理集群服务，也可以在原生服务基础上结合阿里云提供的其他云产品一起使用灵骏服务。
分组	分组是节点的一个集合，是集群的一个子集。分组通常是包含一个或多个具有相同规格特征的节点的集合，例如：GU100节点分组等。
节点	节点即计算节点，是经灵骏优化套件加速的高性能的GPU服务器，用户可以选择其上部署的操作系统（OS），目前支持CentOS 7.9。
优化套件	灵骏提供的适合大规模并行计算集群优化组件的集合，包括数据加载优化、集合通信优化、计算资源优化、网络优化等几个组件。

反馈

使用限制

更新时间：2023-04-17 17:18:41