资源配额(Quota)功能介绍
更新时间:2024-01-16 11:38:40 通过添加新的资源配额、调整现有资源配额的规模或创建子级资源配额从资源池中分配资源。资源配额与特定工作空间绑定后,您就可以在该工作空间内使用资源配额进行AI开发和训练,以实现资源的灵活管理和高效使用。功能介绍
在资源池中购买资源后,您可以通过创建资源配额或调整现有配额规模,来有效分配和管理资源。支持将不同资源组中的资源关联到同一个资源配额中,您也可以为单个资源配额创建多级子配额,实现更精细化资源分配。根据资源类型,分为以下两种类型的资源配额:- 云原生资源配额,包括灵骏智算资源和通用计算资源。支持创建子级资源配额,可以形成Quota Tree,提供更多排队和调度能力。
- 大数据引擎类型的资源配额,包括大数据计算MaxCompute和Flink全托管资源。
新增资源配额
- 新增云原生资源配额 - 为灵骏智算资源新增资源配额。具体操作,请参见灵骏智算资源配额。 - 为通用计算资源新增资源配额。具体操作,请参见通用计算资源配额。
- 购买并使用大数据资源配额 - 购买并使用MaxCompute资源。具体操作,请参见MaxCompute资源配额。 - 购买并使用Flink全托管资源。具体操作,请参见Flink全托管资源管理。
管理云原生资源配额
您可以对已创建的资源配额进行管理操作。具体操作,请参见管理资源配额。 反馈灵骏智算资源配额
更新时间:2024-03-14 14:38:41 阿里云PAI为您提供灵骏智算资源,可用于AI开发和训练,如果您希望进行高性能AI训练、高性能计算,可以通过配置资源配额来使用灵骏智算资源。本文为您介绍如何新增、管理以及使用资源配额。前提条件
- 已创建灵骏智算资源专有资源组并购买了计算资源。具体操作,请参见新建资源组并购买灵骏智算资源。
- 已创建一个专有网络VPC、交换机和安全组。详情请参见创建和管理专有网络和创建安全组。
使用限制
仅华北6(乌兰察布)地域支持配置调度策略。新增资源配额
通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:- 登录并进入PAI控制台的AI计算资源 > 资源配额页面。
- 在灵骏智算资源页签中,单击新增资源配额。
- 在新增资源配额页面中,配置以下参数,完成后单击提交。
参数 | 描述 |
---|---|
名称 | 根据界面提示设置资源配额的名称。 |
调度策略 | 选择合适的调度策略,提高算力资源的利用率,取值如下: - 智能策略 - 均衡策略 - 遍历策略 - FIFO策略 关于各个调度策略的原理介绍,请参见调度策略 。说明仅华北6(乌兰察布)地域支持配置调度策略。 |
关联工作空间 | 选择所属的工作空间后,该资源配额将与该工作空间绑定。 |
描述 | 对资源配额进行简单的描述,以区分不同的资源配额。 |
来源类型 | 支持以下两种配置: - 专有资源组:选择资源池中的资源组,将从该资源组中分配资源。 - 已有资源配额:从已有的资源配额中分配资源。 |
来源 | 选择已创建的专有资源组或资源配额。 |
规格/资源 | 单击添加,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。 |
专有网络 | 在下拉框中选择已创建好的VPC、交换机和安全组。说明后续如果您有访问公网的需求,还需对此处绑定的VPC进行公网NAT网关的配置并绑定EIP,因此建议选择的VPC为您后续用于访问公网的VPC。配置公网NAT网关的SNAT功能操作详情可参见使用公网NAT网关SNAT功能访问互联网 。 |
安全组 | |
交换机 |
管理资源配额
创建资源配额后,您可以单击资源配额名称,来查看详情、水位并进行管理操作。还可以通过扩缩容、新增子级资源配额来优化资源配置。具体操作,请参见管理资源配额。使用资源配额
- 绑定工作空间只有将资源配额绑定到指定的工作空间后,才能使用其进行AI开发、训练任务和服务部署。具体操作,请参见资源配额(Quota)功能介绍。
- 使用已绑定工作空间的资源配额进行AI开发、训练和服务部署。 - 镜像选择使用PAI灵骏资源配额进行分布式训练(DLC)时,涉及服务器、网络、驱动、训练框架等软硬件的协同,因此建议您直接使用PAI官方镜像, 或基于PAI官方镜像构建镜像。说明使用您自有的镜像时,可能需要额外进行驱动、框架、软件版本的适配,才能充分应用灵骏智算资源的高性能。
镜像名称 | 框架 | 机型 | CUDA | 操作系统 | 地区 | 开发语言&版本 |
---|---|---|---|---|---|---|
deepspeed-training:23.06-gpu-py310-cu121-ubuntu22.04 | PyTorch 2.1 Megatron-LM 23.06 DeepSpeed 0.9.5 Transformers 4.29.2 * Nemo 1.19.0 |
GPU | 121 | ubuntu22.04 | 华北6(乌兰察布) | Python3.10 |
megatron-training:23.06-gpu-py310-cu121-ubuntu22.04 | PyTorch 2.1 Megatron-LM 23.06 DeepSpeed 0.9.5 Transformers 4.29.2 * Nemo 1.19.0 |
GPU | 121 | ubuntu22.04 | 华北6(乌兰察布) | Python3.10 |
nemo-training:23.06-gpu-py310-cu121-ubuntu22.04 | PyTorch 2.1 Megatron-LM 23.06 DeepSpeed 0.9.5 Transformers 4.29.2 * Nemo 1.19.0 |
GPU | 121 | ubuntu22.04 | 华北6(乌兰察布) | Python3.10 |
反馈
- <font style="color:rgb(24, 24, 24);">提交DLC训练任务选择灵骏资源配额。具体操作,请参见</font>[创建训练任务](https://help.aliyun.com/zh/pai/user-guide/create-a-training-task)<font style="color:rgb(24, 24, 24);">。</font>
- <font style="color:rgb(24, 24, 24);">基于灵骏智算资源在DSW中开发模型。具体操作,请参见</font>[创建及管理DSW实例](https://help.aliyun.com/zh/pai/user-guide/create-and-manage-dsw-instances/)<font style="color:rgb(24, 24, 24);">。</font>
- <font style="color:rgb(24, 24, 24);">部署EAS服务。具体操作,请参见</font>[服务部署:控制台](https://help.aliyun.com/zh/pai/user-guide/model-service-deployment-by-using-the-pai-console)<font style="color:rgb(24, 24, 24);">。</font>
通用计算资源配额
更新时间:2024-03-14 14:39:12 为充分利用资源池中已购买的通用计算资源,您可以配置资源配额,并绑定到指定的工作空间中,用于多个AI开发和训练任务。本文为您介绍如何新增、管理以及使用资源配额。前提条件
已创建通用计算资源专有资源组并购买了计算资源。具体操作,请参见新建资源组并购买通用计算资源。使用限制
仅华北6(乌兰察布)地域支持配置调度策略。新增资源配额
通过新增资源配额来合理分配资源池中的资源。具体操作步骤如下:- 登录并进入PAI控制台的AI计算资源 > 资源配额页面。
- 在通用计算资源页签中,单击新增资源配额。
- 在新增资源配额页面中,配置以下关键参数,完成后单击提交。
参数 | 描述 |
---|---|
名称 | 根据界面提示设置资源配额的名称。 |
调度策略 | 选择合适的调度策略,提高算力资源的利用率,取值如下: - 智能策略 - 均衡策略 - 遍历策略 - FIFO策略 关于各个调度策略的原理介绍,请参见调度策略 。说明仅华北6(乌兰察布)地域支持配置调度策略。 |
关联工作空间 | 选择所属的工作空间后,该资源配额将与该工作空间绑定。 |
描述 | 对资源配额进行简单的描述,以区分不同的资源配额。 |
来源类型 | 支持以下两种配置: - 专有资源组:选择资源池中的资源组,将从该资源组中分配资源。 - 已有资源配额:从已有的资源配额中分配资源。 |
来源 | 选择已创建的专有资源组或资源配额。 |
规格/资源 | 单击添加,从已有的资源配额或专有资源组中选择合适的资源规格和节点数量。 |
管理资源配额
创建资源配额后,您可以单击资源配额名称,来查看详情、水位并进行管理操作。还可以通过扩缩容、新增子级资源配额来优化资源配置。具体操作,请参见管理资源配额。使用资源配额
- 绑定工作空间只有将资源配额绑定到指定的工作空间后,才能使用其进行AI开发和训练任务。具体操作,请参见资源配额(Quota)功能介绍。
- 使用已绑定工作空间的资源配额 - 用来提交DLC任务,操作详情请参见创建训练任务。 - 用来创建DSW实例,操作详情请参见创建及管理DSW实例。
管理资源配额
更新时间:2024-01-16 11:38:01 您可以对已创建的资源配额进行管理操作,包括查看资源配额详情和水位、扩缩容资源配额以及新增子级资源配额等。查看资源配额详情
登录并进入PAI控制台的资源配额页面后,您可以单击相应的资源配额名称,以查看资源配额的详细信息。- 查看基础信息,包括所属的工作空间、父级资源配额、子级资源配额等。
- 修改基础信息:您可以单击工作空间后的按钮,新增绑定的工作空间或修改已绑定的工作空间;单击调度策略后的按钮,修改调度策略,关于各个调度策略的原理介绍,请参见调度策略。说明仅华北6(乌兰察布)地域支持配置调度策略。
- 查看资源概览,包括CPU、内存和GPU的资源使用量/总量。
- 查看资源节点:在资源节点列表中,查看已关联的资源组下的资源节点。
查看资源配额水位
在资源配额详情页面,切换到资源配额水位页签,查看资源配额水位详情。- 根据不同的时间周期查看CPU、内存和GPU的资源利用率和水位资源概览,从而全面了解该资源的使用情况。
- 查看使用该资源配额创建的任务列表。
扩缩容资源配额
您可以针对当前任务量调整资源配额的规模,以实现有效的成本管理。在资源配额页面中,单击资源配额操作列下的扩缩容,通过调整来源或规格/资源来实现资源配额的扩缩容。- 扩容:为资源配额新增资源,将资源池中不同的资源规格整合到同一个资源配额中。
- 缩容:通过减少已关联的资源规格的节点数或删除某些资源规格来释放资源。
新增子级资源配额
通过新增子级资源配额,实现更精细的资源管理、优化分配策略,提高资源利用效率。 在资源配额页面中,单击资源配额操作列下的新增子级资源配额,为没有绑定工作空间的资源配额新增子级资源配额,将资源按照树形结构进行划分。您可以将子级资源配额绑定到工作空间中,在工作空间中使用子级资源配额来提交训练任务。 反馈调度策略
更新时间:2023-12-21 13:42:21 资源配额代表了一组算力资源。在配置资源配额时,您可以根据调度策略的实现原理选择合适的调度策略,来提高出队效率,从而提高算力资源的利用率。本文为您介绍支持选择的调度策略和实现原理。背景信息
当多个任务或实例同时请求算力资源时,会形成一个队列并等待执行。为了提高算力资源的使用效率,PAI在资源配额维度提供了多种排队策略,并通过调度策略来提高任务的出队效率。您可以在资源配额界面上配置和管理这些排队策略,选择不同的排队策略将直接影响任务的执行顺序,但不会对已经开始执行的任务产生影响。调度策略
配置资源配额时,支持选择以下几种类型的调度策略,各个调度策略的实现原理说明如下:FIFO策略
如果队列中的第一个任务无法出队,系统将反复尝试对第一个任务进行出队操作,而不会跳过。遍历策略
如果队列中的第一个任务无法出队,则会跳过该任务,然后依次尝试对后续队列中的任务进行出队操作。均衡策略
- 如果队列中的第一个任务无法出队,系统将反复尝试对第一个任务进行出队操作,不会跳过。
- 如果第一个任务等待出队时间超过预定时间(一般为几分钟),则系统会按照遍历策略尝试对第一个任务和第二个任务进行出队操作。
- 如果第二个任务等待出队时间也超过预定时间,系统会对第一个、第二个和第三个任务按照遍历策略尝试出队操作,依次类推。
智能策略
当调度策略选择智能策略时,系统将根据设定的任务优先级自动选择合适的执行策略: 其中:Item1、Item2优先级≥7;Item3~ItemN优先级<7。相关文档
在创建资源配额时,您可以根据调度策略实现原理选择合适的调度策略。具体操作,请参见资源配额功能介绍。说明
仅华北6(乌兰察布)地域支持配置调度策略。 反馈MaxCompute资源配额-大数据
更新时间:2023-12-22 16:04:19 您可以先购买并创建不同类型的MaxCompute资源配额,然后从PAI进行模型开发,再提交至MaxCompute进行大规模分布式训练。本文为您介绍用于PAI的模型训练的MaxCompute资源的要求和配置要点。MaxCompute资源
MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化运维投入,使您可以经济并高效地分析处理海量数据。有关MaxCompute资源的详细信息请参见MaxCompute资源概述。MaxCompute资源类型与对比选择
在PAI产品中支持使用的MaxCompute资源分类如下:- CPU资源和在MaxCompute产品中使用一样,支持以下两种付费方式: - 按量计费标准版(推荐使用) - 包年包月标准计算资源
- GPU资源仅支持在PAI产品中使用,支持以下两种付费方式: - 按量计费标准版(推荐使用) - 包年包月标准计算资源
- 计算抵扣包
- 存储抵扣包
说明
MaxCompute的所有计费项包含计算资源费用、存储资源费用、上传/下载资源费用三部分。在PAI的训练任务使用场景下通常不涉及上传/下载资源。 使用按量计费后,在计算资源费用中,算法任务的账单出现在PAI产品下,其他任务(例如:SQL类任务)的账单出现在MaxCompute产品下。对比项 | 按量计费标准版(推荐使用) | 包年包月标准计算资源 | 计算抵扣包 | 存储抵扣包 |
---|---|---|---|---|
计算资源 (用于任务训练计算) |
资源池为共享型,计算作业按需抢占资源,不可指定用量也无使用限制。 | 包含预留计算资源(独享资源)和非预留计算资源(非必选资源)。 | 计算资源用量抵扣包。 | 无 |
存储资源 (用于存储训练结果表) |
资源池为共享型,按需存储,无使用限制。 | 资源池为共享型,按需存储,无使用限制。 | 无 | 存储资源用量抵扣包。 |
计费规则-计算资源 | 计算费用(按量付费) | 计算费用(包年包月) | 计算抵扣包和存储抵扣包 | 计算抵扣包和存储抵扣包 |
计费规则-存储资源 | 存储费用 | 无 | ||
适用场景 | 作业量不稳定且需要灵活存储空间的项目。 | 已上线、可平稳运行的项目。 | 抵扣按量付费产生的计算用量。 | 抵扣标准存储和备份存储按量计费项的用量。 |
操作账号和权限要求
- 阿里云主账号(推荐):使用该账号可完成所有操作,无需额外授权。
- RAM用户: - 开通购买MaxCompute资源,需要为该RAM用户授予AliyunBSSOrderAccess和AliyunDataWorksFullAccess权限,详情请参见准备RAM用户。 - 关联MaxCompute资源到工作空间,需要在工作空间中为该RAM用户添加管理员角色,详情请参见管理成员。 - 在Designer中使用MaxCompute资源进行模型训练,需要在工作空间中为该RAM用户添加MaxCompute开发角色,详情请参见管理成员。
开通购买MaxCompute资源
您可前往MaxCompute通用购买页面,根据需要开通购买对应的MaxCompute资源。使用与管理MaxCompute资源
已开通购买的MaxCompute资源可关联到某个工作空间中,便于工作空间内的任务使用。您也可以在MaxCompute的资源管理页面中将资源进一步规划管理。- 绑定工作空间在新建工作空间时,可以直接选择关联MaxCompute资源。在关联MaxCompute资源时,您可以编辑创建的资源配额实例的名称(即MaxCompute项目名称),同时可以选择是否开启GPU使用(部分地域支持)。后续,在此工作空间内创建的训练任务将会使用此关联的MaxCompute资源。说明一个工作空间仅能关联一个MaxCompute资源。您也可以在工作空间创建完成后,修改关联的MaxCompute资源。创建工作空间的操作请参见创建工作空间。
- 管理MaxCompute资源您可以登录PAI控制台,在AI计算资源** > **资源配额页面查看当前地域可用的MaxCompute资源概况。 - 您可以查看当前MaxCompute资源的计算资源CU的配额情况,以及资源类型是预付费(包年包月类型)还是后付费(按量计费类型)。 - 您也可以单击资源管理进入MaxCompute页面,对后付费(按量计费类型)的资源进行进一步的配额规划设置。修改配额的操作请参见设置配额组。