入门概述

更新时间:2023-03-13 16:27:05

产品详情

相关技术圈

我的收藏

本文将指引您快速完成一个完整的灵骏算力集群创建和信息查看操作。

操作步骤

创建和使用一个集群包含以下操作: 反馈

上一篇:

准备工作

更新时间:2023-12-26 19:15:15

产品详情

相关技术圈

我的收藏

在使用灵骏智能计算服务前,您需准备好阿里云账号,并开通其他必要的云产品。本文为您介绍如何注册阿里云账号并完成其他准备工作。

背景信息

灵骏的账号登录体系与阿里云保持一致,统一采用阿里云账号或RAM用户登录的方式。
  • 阿里云账号是阿里云资源的归属及使用计量计费的基本主体,负责生成本企业组织下的RAM用户,并对RAM用户进行管理、授权等操作。
  • RAM用户由阿里云账号在RAM中创建并进行管理,其本身不拥有资源,也没有独立的计量计费,RAM用户由所属阿里云账号统一控制和付费。
  • 仅阿里云主账号或同时拥有以下权限的RAM用户可以开通服务: - AliyunRAMReadOnlyAccess - AliyunCENReadOnlyAccess - AliyunARMSFULLAccess - AliyunVPCReadOnlyAccess - AliyunActionTrailReadOnlyAccess - AliyunLINGJUNFullAccess

说明

为RAM用户添加权限,请参见为RAM用户授权

步骤一:注册阿里云账号

下面以从未注册过阿里云账号为例,为您介绍如何注册一个阿里云账号并完成账号的实名认证等安全配置,为开通并使用做好准备。如果您已有符合要求的阿里云账号,即可跳过此步骤,直接进行后续操作。

说明

账号创建成功后,作为阿里云系统识别的资源消费账号,会拥有非常高的权限。请您确保账号和密码的安全,切勿借给他人使用,并定期更新密码。

步骤二:开通灵骏

  1. 登录智能计算灵骏控制台
  2. 在左侧导航栏,选择资源与节点>节点管理。
  3. 单击购买新节点,进入计算节点购买页面。根据界面提示,选择购买的地域、机型、时长等信息。
  4. 单击立即购买,根据界面提示完成付款。
  5. 登录并进入灵骏连接购买界面,购买灵骏连接服务。灵骏连接用于实现灵骏与其他阿里云产品的网络连通,您可根据业务规划购买,计费详情请参见产品计费

说明

灵骏连接的地域需要与灵骏计算节点的地域相同。目前只支持华北6(乌兰察布)。

步骤三:开通必要的其他云产品

为更好的使用灵骏,您还需要开通其它相关的云产品,包括:

重要

以下的阿里云产品会单独计费,具体的计费规则请查看各个产品的计费文档。 具体配置操作,请参见创建集群 反馈

上一篇:

创建集群

更新时间:2023-12-26 10:37:22

产品详情

相关技术圈

我的收藏

本文为您介绍如何创建灵骏集群。

步骤一:创建集群分组

  1. 登录智能计算灵骏控制台
  2. 在左侧导航栏,选择资源与节点> 集群管理
  3. 单击一键创建集群,进入创建托管云集群页面。
  4. 单击基础灵骏集群服务卡片
  5. 集群信息区域,输入集群名称集群编号登录密码资源组等信息。
  6. 单击创建分组,配置节点分组信息。 1. 根据规划和界面提示,配置分组名称和归属当前分组的节点信息,例如节点机型、镜像等信息。 2. 单击请选择节点实例,选择将哪些节点添加到当前分组中。
  7. 单击保存,进入下一步网络配置,进入网络配置的配置向导。

步骤二:配置集群网络

  1. 配置集群网段。 - 集群网段为灵骏集群内部使用的网段,用于给灵骏节点分配IP,可填写有效的私有网段。 - 集群子网是灵骏集群网段的子网段。灵骏网段和灵骏子网的更多信息,请参见管理灵骏网段说明 您需要提前规划集群网段,集群网段需要避免与您已有的其它VPC网段、线下IDC网段冲突。 集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。
  2. 单击去授权,允许创建一个服务关联角色AliyunServiceRoleForEfloVcc,以完成相应功能。更多信息,请参见附录:灵骏连接服务关联角色说明
  3. 实例ID下拉列表中选择已购买的灵骏连接实例ID,在云企业网(CEN)文本框中输入相应信息。重要您需要在CEN中创建转发路由器,转发路由器的地域应该和灵骏节点的地域一致。具体操作,请参见转发路由器实例
  4. 监控网络信息区域,配置专有网络VPC和交换机vSwitch。 1. 配置云企业网。创建新的VPC或将已有的VPC,连接至上一步中的转发路由器实例,请参见开通并配置其他云产品。请确保VPC下的交换机至少有1个空闲IP,灵骏将使用该交换机对灵骏连接的连通性进行监控。重要 只有将VPC连接至已选择的转发路由器,才能在下拉列表中选择相应的VPC。 集群网段、互联网段、监控网络的专有网络VPC互相之间不能冲突,且监控网络的专有网络VPC不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。 2. 单击专有网络(VPC)下拉列表和交换机(vSwitch)下拉列表后的集群 - 图1,选择相应的专有网络和交换机。
  5. 单击保存,进入下一步 软件实例基本参数,继续后续配置。

步骤三:确认集群配置

检查填写的信息无误后,您可以单击左下角提交配置,开始创建集群。 反馈

上一篇:

查看集群信息

更新时间:2023-01-12 16:28:45

产品详情

相关技术圈

我的收藏

本文介绍如何查看集群基础信息。在创建集群以后,您可以查看环境资源概览和操作记录。

资源概览

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择数据大盘 > 数据概览
  3. 您可以在数据概览页面,查看集群数分组数等信息。

操作日志

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择数据大盘 > 操作日志
  3. 单击事件查询页签,查看事件时间事件名称等信息。
  4. 单击事件聚合查询页签,查看每两个小时的操作日志的聚合结果。
反馈

上一篇:

开通灵骏-公测开通并配置其他云产品

更新时间:2023-12-25 11:29:17

产品详情

相关技术圈

我的收藏

开通灵骏后,新购的计算节点在网络上与阿里云公共云环境隔离,您还需联合其他阿里云产品一起使用以实现网络连通与状态监控,包括专有网络VPC、云企业网CEN、应用实时监控服务ARMS。本文为您介绍使用灵骏前,您还需购买并配置的其他云产品。

背景信息

计算节点初始时,实际处于一个隔离的网络环境中,您可以通过灵骏连接对接云企业网CEN,实现与阿里云公共云的网络连通。集群 - 图2如上图所示,除灵骏产品(计算节点、灵骏连接、CPFS)外,您还需联合使用的必要的云产品有:
  • 云企业网CEN:通过CEN实现灵骏隔离的网络与阿里云公共云网络的连通,CEN的配置要点可参见下文的创建并配置CEN
  • VPC:通过CEN连通阿里云公共云网络后,对接公共云上其他云产品时,各云产品均处于其对应的VPC网络环境中,因此您还需创建并配置VPC,VPC的配置要点可参见下文的创建并配置VPC
  • ARMS:通过ARMS对集群实例进行实时监控,以实现在控制台的大屏中展示集群实例的状态与使用详情,灵骏会为您自动开通和配置ARMS。

创建并配置CEN

通过云企业网CEN连接阿里云公共云网络时,需关注的配置要点如下,详细的产品介绍与操作指导请参见云企业网CEN官网文档。
  1. 创建云企业网CEN实例,操作详情请参见云企业网实例
  2. 在CEN中创建转发路由器,操作详情请参见转发路由器实例
  3. 配置转发路由器。将需要连接的其他云产品的网段添加至CEN的路由器中。 - 地域内连接:您可以通过添加地域内连接的方式,将待连接云服务所在的VPC添加至CEN中,实现对整个VPC网络的连通。操作详情请参见创建VPC连接 - 跨地域连接管理:如果您有跨地域访问其他云服务的场景,可通过设置跨地域带宽的方式来实现,操作详情请参见跨地域连接

创建并配置VPC

如上述的网络连接拓扑图所示,灵骏通过CEN连接的各云服务处于VPC网络环境中,您需要准备VPC并创建交换机以实现网络连通,操作详情请参见搭建IPv4专有网络

说明

如果您已经创建VPC,使用灵骏产品时可直接使用已创建的VPC,您仅需保障待使用的VPC中有空闲IP即可。
  • 监控网络:用于实现对灵骏实际网络连通性监控的网络信息,需占用您VPC内的一个IP。
  • ARMS和其他云产品:处于您的VPC网络环境中,灵骏可通过CEN添加转发路由实现网络连通。
创建完成后,后续在创建集群过程中可直接选择已准备好的VPC和交换机。

开通并配置ACK灵骏托管版集群

  • 如果您需要更高效、稳定地处理大规模数据计算、高性能数据处理等业务,可以开通容器服务ACK。
  • 首次使用容器服务ACK,需要授权容器服务默认角色及开通相关云产品。具体开通步骤及相关云产品的完整列表,请参见什么是容器服务灵骏版
  • 使用ACK灵骏托管版集群服务需要开通的云产品列表,请参见ACK灵骏集群计费说明

创建并配置RDS

  1. 创建RDS实例,具体操作,请参见快速创建RDS MySQL实例请确保创建的RDS实例与灵骏集群在同一VPC下。
  2. 创建数据库账号和6个数据库。具体操作,请参见创建数据库和账号其中数据库包含dlc、notebook、eas、paiflow、pai_user和pai_console。
  3. 根据RDS地址信息、账号信息到集群创建mysql-secret对象。更多信息,请参见在容器服务 Serverless 版上部署有状态的高可用MySQL集群

创建并配置CPFS

创建CPFS文件。具体操作,请参见创建文件系统 CPFS集群可以在灵骏集群自动化部署阶段完成集群初始化。

创建并配置NAS

  1. 创建文件系统NAS。具体操作,请参见创建NAS文件系统请确保创建的NAS与灵骏集群在同一VPC下。
  2. 创建挂载点。更多信息,请参见CreateMountTarget

创建并配置ACR

  1. 创建同ACK集群在同一个VPC下的ACR实例。
  2. 使用docker push命令上传一份基础镜像到ACR仓库内。具体操作,请参见在其他云产品中使用ACR镜像部署应用
  3. 在集群中创建docker-registry-secret对象。具体操作,请参见创建docker-registry-secret对象

创建并配置OAuth

  1. 创建应用,并获取应用ID。具体操作,请参见创建应用
  2. 添加应用范围。具体操作,请参见添加应用范围
  3. 创建应用密钥。具体操作,请参见创建应用密钥

开通并配置ARMS监控组件

  1. 安装ARMS监控组件。具体操作,请参见安装ARMS应用监控组件
  2. 添加ARMS监控组件。具体操作请参见如何添加ARMS监控组件在创建ACK灵骏集群时部署addon组件,其中包括prometheus、kube-state-metrics、gpu-exporter和node-exporter。
反馈

上一篇:

开通并配置其他云产品

更新时间:2023-12-25 11:29:17

产品详情

相关技术圈

我的收藏

开通灵骏后,新购的计算节点在网络上与阿里云公共云环境隔离,您还需联合其他阿里云产品一起使用以实现网络连通与状态监控,包括专有网络VPC、云企业网CEN、应用实时监控服务ARMS。本文为您介绍使用灵骏前,您还需购买并配置的其他云产品。

背景信息

计算节点初始时,实际处于一个隔离的网络环境中,您可以通过灵骏连接对接云企业网CEN,实现与阿里云公共云的网络连通。集群 - 图3如上图所示,除灵骏产品(计算节点、灵骏连接、CPFS)外,您还需联合使用的必要的云产品有:
  • 云企业网CEN:通过CEN实现灵骏隔离的网络与阿里云公共云网络的连通,CEN的配置要点可参见下文的创建并配置CEN
  • VPC:通过CEN连通阿里云公共云网络后,对接公共云上其他云产品时,各云产品均处于其对应的VPC网络环境中,因此您还需创建并配置VPC,VPC的配置要点可参见下文的创建并配置VPC
  • ARMS:通过ARMS对集群实例进行实时监控,以实现在控制台的大屏中展示集群实例的状态与使用详情,灵骏会为您自动开通和配置ARMS。

创建并配置CEN

通过云企业网CEN连接阿里云公共云网络时,需关注的配置要点如下,详细的产品介绍与操作指导请参见云企业网CEN官网文档。
  1. 创建云企业网CEN实例,操作详情请参见云企业网实例
  2. 在CEN中创建转发路由器,操作详情请参见转发路由器实例
  3. 配置转发路由器。将需要连接的其他云产品的网段添加至CEN的路由器中。 - 地域内连接:您可以通过添加地域内连接的方式,将待连接云服务所在的VPC添加至CEN中,实现对整个VPC网络的连通。操作详情请参见创建VPC连接 - 跨地域连接管理:如果您有跨地域访问其他云服务的场景,可通过设置跨地域带宽的方式来实现,操作详情请参见跨地域连接

创建并配置VPC

如上述的网络连接拓扑图所示,灵骏通过CEN连接的各云服务处于VPC网络环境中,您需要准备VPC并创建交换机以实现网络连通,操作详情请参见搭建IPv4专有网络

说明

如果您已经创建VPC,使用灵骏产品时可直接使用已创建的VPC,您仅需保障待使用的VPC中有空闲IP即可。
  • 监控网络:用于实现对灵骏实际网络连通性监控的网络信息,需占用您VPC内的一个IP。
  • ARMS和其他云产品:处于您的VPC网络环境中,灵骏可通过CEN添加转发路由实现网络连通。
创建完成后,后续在创建集群过程中可直接选择已准备好的VPC和交换机。

开通并配置ACK灵骏托管版集群

  • 如果您需要更高效、稳定地处理大规模数据计算、高性能数据处理等业务,可以开通容器服务ACK。
  • 首次使用容器服务ACK,需要授权容器服务默认角色及开通相关云产品。具体开通步骤及相关云产品的完整列表,请参见什么是容器服务灵骏版
  • 使用ACK灵骏托管版集群服务需要开通的云产品列表,请参见ACK灵骏集群计费说明

创建并配置RDS

  1. 创建RDS实例,具体操作,请参见快速创建RDS MySQL实例请确保创建的RDS实例与灵骏集群在同一VPC下。
  2. 创建数据库账号和6个数据库。具体操作,请参见创建数据库和账号其中数据库包含dlc、notebook、eas、paiflow、pai_user和pai_console。
  3. 根据RDS地址信息、账号信息到集群创建mysql-secret对象。更多信息,请参见在容器服务 Serverless 版上部署有状态的高可用MySQL集群

创建并配置CPFS

创建CPFS文件。具体操作,请参见创建文件系统 CPFS集群可以在灵骏集群自动化部署阶段完成集群初始化。

创建并配置NAS

  1. 创建文件系统NAS。具体操作,请参见创建NAS文件系统请确保创建的NAS与灵骏集群在同一VPC下。
  2. 创建挂载点。更多信息,请参见CreateMountTarget

创建并配置ACR

  1. 创建同ACK集群在同一个VPC下的ACR实例。
  2. 使用docker push命令上传一份基础镜像到ACR仓库内。具体操作,请参见在其他云产品中使用ACR镜像部署应用
  3. 在集群中创建docker-registry-secret对象。具体操作,请参见创建docker-registry-secret对象

创建并配置OAuth

  1. 创建应用,并获取应用ID。具体操作,请参见创建应用
  2. 添加应用范围。具体操作,请参见添加应用范围
  3. 创建应用密钥。具体操作,请参见创建应用密钥

开通并配置ARMS监控组件

  1. 安装ARMS监控组件。具体操作,请参见安装ARMS应用监控组件
  2. 添加ARMS监控组件。具体操作请参见如何添加ARMS监控组件在创建ACK灵骏集群时部署addon组件,其中包括prometheus、kube-state-metrics、gpu-exporter和node-exporter。
反馈

上一篇:

更新时间:2023-08-25 13:51:46

产品详情

相关技术圈

我的收藏

本文为您介绍如何开通灵骏并购买相关资源。

开通灵骏

您需要先开通灵骏,才能正常使用集群管理、节点管理等功能。 灵骏目前处于定向公测阶段,阿里云业务人员会主动为邀测用户提供开通链接。

购买计算节点

您可根据业务需要,购买所需机型的计算节点。灵骏的计费信息,请参见产品计费
  1. 登录智能计算灵骏控制台
  2. 在左侧导航栏,选择资源与节点>节点管理****
  3. 单击购买新节点,进入计算节点购买页面。根据界面提示,选择购买的地域、机型、时长等信息。
  4. 单击立即购买,根据界面提示完成付款。

购买灵骏连接

您可以根据业务需要,购买灵骏连接。

说明

1个集群当前最多支持使用1个灵骏连接实例来对接公共云环境。您可根据业务中的集群数量来购买对应数量的灵骏连接实例。
  1. 登录并进入灵骏连接购买页面,购买灵骏连接服务。
  2. 根据界面提示,选择购买的地域、带宽、时长和数量等信息。
  3. 单击立即购买,根据界面提示完成付款。
反馈

上一篇:

创建集群

更新时间:2024-02-19 15:56:44

产品详情

相关技术圈

我的收藏

集群是指运行所需要的资源组合,关联了若干计算节点灵骏连接等资源。在集群内可进一步细分节点分组,节点分组可以包含一个或多个具有相同配置的计算节点,本文为您介绍如何创建集群。

前提条件

  • 已根据业务需求购买所需产品(计算节点灵骏连接),操作详情请参见购买产品
  • 已根据业务需求,购买并配置好所需的其他云产品,例如CEN、ARMS、VPC,配置要点可参见购买并配置其他云产品

进入创建集群配置

  1. 登录灵骏控制台
  2. 在左侧导航栏选择资源与节点 > 集群管理,进入集群管理页面。
  3. 单击一键创建集群,进入创建集群配置页面。
  4. 单击基础灵骏服务卡片。根据界面配置指引,分别完成集群和分组配置网络配置

集群和分组配置

您可以根据业务需求规划多个集群,集群内的计算节点可进一步细化节点分组,通过对集群、计算节点的规划来提高计算节点的资源利用率。规划完成后,集群的创建步骤如下。

集群 - 图4

  1. 配置集群信息配置集群名称、集群节点的root密码、资源组等信息。资源组的相关信息,请参见创建资源组
  2. 单击创建分组,配置节点分组信息。 1. 根据规划和界面提示,配置分组名称和归属当前分组的节点信息,例如节点机型、镜像等信息。 2. 单击请选择节点实例,选择将哪些节点添加到当前分组中。
  3. 单击保存,进入下一步网络配置继续后续配置。

网络配置

集群初始时处于一个隔离的网络环境中,您需要通过灵骏连接云企业网来实现与公共云的网络连通,同时指定用于监控网络连通状态的VPC网络环境。

集群 - 图5

如上述网络拓扑图所示,网络配置中涉及的核心网络有以下几类:
  • 集群网段:为集群内部使用的网段,用于给计算节点分配IP,为私有网段。
  • 监控网络:为用于监控网络连通状态的VPC网络。
您进行网络规划和配置时,以上各网段不能冲突。完成网络规划后,您可参考下面的步骤进行集群的网络配置。

说明

完成集群的网络配置后,您还需关注CEN的其他网络配置是否正确,CEN的配置要点可参见购买并配置CEN
  1. 配置集群网段 - 集群网段为灵骏集群内部使用的网段,用于给计算节点分配IP,请填写有效的私有网段。 - 集群子网是灵骏集群网段的子网段。灵骏网段和灵骏子网的更多信息,请参见管理灵骏网段
  2. 说明
    • 您需要提前规划集群网段,集群网段不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。
    • 集群网段可用IP数量,决定了集群可部署的最大节点数量。您需要提前预留足够大的网段(优先选择掩码长度小于22位的网段),避免之后无法扩容集群。
  3. (可选)配置集群子网bond分配策略。如果选择了特定计算节点,需要配置灵骏节点物理网卡bond接口的分配策略,bond接口与灵骏节点实例绑定。您可以按照bond策略机型策略节点策略配置bond接口。添加bond策略**添加机型策略**添加节点策略不同节点机型有不同的bond接口数量,集群的bond接口数量等于集群所有节点机型中最多的bond数量。集群的bond接口以bondx的格式命名,其中x从0开始编号。例如,一个集群的A、B两种节点对应的bond接口数量分别为3和4,那么集群的bond接口数量为4,分别从bond0bond3命名。而且A节点使用bond0bond2的接口策略。说明一个集群最多只能配置一个bond分配策略。

操作步骤

  1. 1. <font style="color:rgb(24, 24, 24);">配置集群的bond策略。</font>
  2. 2. <font style="color:rgb(24, 24, 24);">(可选)配置默认bond。未分配策略的bond接口按照默认bond进行分配。选中</font>**<font style="color:rgb(24, 24, 24);">应用于全部</font>**<font style="color:rgb(24, 24, 24);">复选框,可以将默认bond分配给所有bond接口。</font>
  1. 配置灵骏连接 1. 单击授权,为灵骏连接授权。后续通过灵骏连接来对接CEN并访问其他云产品,因此您需要授权灵骏有访问其他云产品的权限。更多信息,请参见附录:灵骏连接服务关联角色说明 2. 在下拉列表中选择灵骏连接实例ID,指定当前集群使用哪个灵骏连接实例连接云上环境。 3. 在下拉列表中选择云企业网实例,指定当前集群后续通过灵骏连接对接哪个CEN实例。重要您需要在CEN中创建转发路由器,转发路由器的地域应该和灵骏节点的地域一致。具体操作,请参见转发路由器实例
  2. 配置监控网络信息 1. 配置云企业网。创建新的VPC或将已有的VPC连接至第2步中的云企业网实例中的转发路由器实例,请参见开通并配置CEN。请确保VPC下的交换机至少有1个空闲IP,灵骏将使用该交换机对灵骏连接的连通性进行监控。重要 只有将VPC连接至已选择的转发路由器,才能在下拉列表中选择相应的VPC。 集群网段、监控网络的专有网络VPC互相之间不能冲突,且监控网络的专有网络VPC不能和灵骏待连通的其他网络环境(如用户其他VPC网络、线下IDC网段)冲突。 2. 单击专有网络(VPC)下拉列表和交换机(vSwitch)下拉列表后的集群 - 图6,选择相应的专有网络和交换机。
  3. 单击保存,进入下一步 软件实例基本参数,继续后续配置。

确认配置

确认配置页面确认集群的基本信息、网络信息、软件实例参数,无误后单击提交配置,开始创建集群。创建完成后会回到集群管理页面。 反馈

上一篇:

AI助手使用说明-自动恢复

更新时间:2024-01-22 16:15:00

产品详情

相关技术圈

我的收藏

PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。

前提条件

已创建带有ACK灵骏托管版的集群。具体操作,请参见创建带有ACK灵骏托管版的集群

功能介绍

安装AI助手并完成RRSA授权操作后,提交训练任务时,您需要开启PAI的AIMaster和EasyCKPT功能。当发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:
  • 异常采集和上报:通过AI助手的告警系统自动和PAI进行交互。
  • 故障隔离:对故障机自动进行隔离。
  • 异常处理:通过告警触发PAI创建Checkpoint并快速恢复任务。

配置方法

  1. 安装ack-lingjun-aiast组件。 1. 登录容器服务管理控制台,在左侧导航栏选择集群 2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择运维管理** > **组件管理 3. 组件管理页面,单击其他页签,找到ack-lingjun-aiast组件,单击组件右下方的安装 4. 在提示对话框确认组件信息后,单击确定
  2. 为集群开启RRSA功能。 1. 在目标集群的左侧导航栏,单击集群信息 2. 在集群详情页面,单击基本信息页签,在集群信息区域单击RRSA OIDC右侧的启用RRSA。详情请参见通过RRSA配置ServiceAccount的RAM权限实现Pod权限隔离 3. 在弹出的对话框中,单击确定
  3. 安装ack-pod-identity-webhook组件。具体操作,请参见ack-pod-identity-webhook
  4. 创建一个名为aiph-ack-rrsa-role的RAM角色。 1. 使用阿里云账号登录RAM控制台 2. 在左侧导航栏,选择身份管理** > **角色 3. 角色页面,单击创建角色 4. 创建角色面板,选择可信实体类型为身份提供商,然后单击下一步 5. 配置角色配置项,配置如下角色信息后,单击完成
配置项 描述
角色名称 aiph-ack-rrsa-role
身份提供商类型 OIDC
选择身份提供商 ack-rrsa-。其中,为您的集群ID。
限制条件 oidc:iss:默认即可。
oidc:aud:选择sts.aliyuncs.com
oidc:sub条件判定方式选择StringEquals,值的格式为*system:serviceaccount:aiph-ops:aiph-manager
  1. 为上一步创建的角色授予AliyunCSReadOnlyAccess系统策略权限,以及AI助手需要的自定义OpenAPI权限。自定义OpenAPI权限信息如下,如何创建自定义权限策略,请参见创建自定义权限策略,如何为RAM角色授权,请参见为RAM角色授权

后续步骤

如需使用训练任务快速恢复,您需要开启PAI的AI Master和EasyCKPT功能。具体操作步骤,请参见:
  1. # 注:添加该权限即代表授权AI助手代替用户进行灵骏节点自动化运维操作。
  2. {
  3. "Statement": [
  4. {
  5. "Effect": "Allow",
  6. "Action": [
  7. "eflo:*"
  8. ],
  9. "Resource": [
  10. "acs:eflo:*"
  11. ]
  12. },
  13. {
  14. "Effect": "Allow",
  15. "Action": "cms:DescribeSystemEventAttribute",
  16. "Resource": "acs:cms:*"
  17. }
  18. ],
  19. "Version": "1"
  20. }
反馈

上一篇:

数据大盘

更新时间:2024-02-27 14:52:15

产品详情

相关技术圈

我的收藏

本文为您介绍如何查看资源概览和操作日志。

查看资源概览

  1. 登录灵骏控制台
  2. 在左侧导航栏,单击数据大盘 > 数据概览
  3. 您可以在数据概览页面查看集群数、分组数等基本信息,以及使用率汇总、集群磁盘信息、集群网络带宽使用等趋势图。

查看操作日志

  1. 在左侧导航栏,单击数据大盘 > 操作日志
  2. 您可以在事件查询页签,查看事件时间、事件名称和用户名等。操作记录包括:节点重装、集群创建、节点查看等。您可以在下拉列表中选择起始日期及结束日期,对日志记录进行筛选。
  3. 单击事件聚合查询页签,查看每两个小时的操作日志的聚合结果。事件查询事件聚合查询的详情,可以参见事件查询概览
反馈

上一篇:

运维任务中心

更新时间:2022-08-18 14:09:56

产品详情

相关技术圈

我的收藏

运维任务中心展示不同类型任务的详细信息。本文为您介绍如何查看运维任务中心。

操作步骤

  1. 登录灵骏控制台
  2. 在左侧导航栏单击任务中心。您可以查看任务ID、任务类型、任务状态、任务进度等基本信息。
  3. 单击具体任务ID后的查看详情,会跳转到任务详情页面。您可以单击step列表任务流程图页签,查看任务的每一步操作信息和任务的流程图。
反馈

上一篇:

管理标签

更新时间:2023-12-25 13:16:32

产品详情

相关技术圈

我的收藏

用户可以通过标签对智能计算灵骏的资源进行个性化分类管理,适合资源管理、分账等应用场景。本文为您介绍如何管理灵骏资源的标签。

使用限制

  • 目前仅灵骏集群和计算节点支持标签管理功能。
  • 每个资源最多可同时绑定20个标签。
  • 单次最多可以创建10个标签,并且标签键不可重复。
  • 如果使用RAM用户查看和管理标签,需要阿里云账号为RAM用户添加以下权限。为RAM用户授权的操作步骤,请参见为RAM用户授权 - AliyunTAGReadOnlyAccess - AliyunTagManagerAccess

创建自定义标签

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择资源与节点>标签管理,进入标签管理页面。
  3. 单击自定义标签页签,单击创建自定义标签
  4. 创建自定义标签对话框,配置标签键和标签值。重要创建自定义标签,必须同时绑定资源。如果仅需要创建标签,并规划标签键和值,请参见创建预置标签
  5. (可选)您可以通过资源类型对已创建的自定义标签进行筛选,或基于标签键的关键词对自定义标签进行搜索。

绑定自定义标签

绑定集群的自定义标签

有两种方式给集群绑定标签:
  1. 在集群管理页面绑定标签。 1. 登录灵骏控制台 2. 在左侧导航栏,选择资源与节点>集群管理 3. 集群管理页面,找到目标集群并将鼠标悬浮于标签列的集群 - 图7图标上,在悬浮框单击绑定 4. 绑定标签对话框,选择相应的标签键标签值
  2. 在创建集群时绑定标签。创建集群时,默认给集群中的节点绑定所属集群的系统标签和自定义标签(如果有相同的标签键,会使用集群的标签值覆盖节点的标签值)。创建集群的步骤,请参见创建集群

绑定节点的自定义标签

  1. 在左侧导航栏,选择资源与节点>节点管理
  2. 节点管理页面,找到目标节点并将鼠标悬浮于标签列的集群 - 图8图标上,在悬浮框单击绑定
  3. 绑定标签对话框,选择相应的标签键标签值重要对集群进行扩容时,会自动给集群中扩容的节点绑定所属集群的系统标签和自定义标签(如果有相同的标签键,会使用集群的值覆盖节点的标签值)。

编辑和删除自定义标签

编辑和删除集群的自定义标签

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择资源与节点>集群管理
  3. 集群管理页面,找到目标集群并将鼠标悬浮于标签列的集群 - 图9图标上,在悬浮框单击编辑
  4. 编辑标签对话框,编辑、删除相应的标签键标签值重要删除集群前,需要删除集群绑定的标签。删除集群的步骤,请参见删除集群

编辑和删除节点的自定义标签

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择资源与节点>节点管理
  3. 节点管理页面,找到目标节点并将鼠标悬浮于标签列的集群 - 图10图标上,在悬浮框单击编辑
  4. 编辑标签对话框,编辑、删除相应的标签键标签值重要 - 对集群进行缩容,会自动删除相应节点所属集群的系统标签。如果节点的某个标签键、标签值和集群的标签键、标签值完全一致,会删除节点的这个标签。 - 节点到期后,会解绑节点上的系统标签和自定义标签。

查看系统标签

  1. 登录灵骏控制台
  2. 在左侧导航栏,选择资源与节点>标签管理,进入标签管理页面。
  3. 单击系统标签页签,查看系统标签。系统标签的格式是:acs:lingjun:cluster={ClusterID},其中ClusterID表示资源ID。
反馈

上一篇: