OpenPAI是什么
OpenPAI是由微软亚洲研究院和微软(亚洲)互联网工程院联合研发的大规模人工智能集群管理平台,支持多种深度学习、机器学习及大数据任务,可提供大规模GPU集群调度、集群监控、任务监控、分布式存储等功能,且用户界面友好,易于操作。
为什么要使用OpenPAI
对于集群用户而言:
- 为深度学习量身定做,可扩展支撑更多AI和大数据框架
通过创新的PAI运行环境支持,几乎所有深度学习框架如CNTK、TensorFlow、PyTorch等无需修改即可运行;其基于Docker的架构则让用户可以方便地扩展更多AI与大数据框架。
- 容器与微服务化,让AI流水线实现DevOps
OpenPAI 100%基于微服务架构,让AI平台以及开发便于实现DevOps的开发运维模式。
- 支持GPU多租,可统筹集群资源调度与服务管理能力
在深度学习负载下,GPU逐渐成为资源调度的一等公民,OpenPAI提供了针对GPU优化的调度算法,丰富的端口管理,支持Virtual Cluster多租机制,可通过Launcher Server为服务作业的运行保驾护航。
- 兼容AI开发工具生态
平台实现了与Visual Studio Tools for AI等开发工具的深度集成,用户可以一站式进行AI开发。
对于管理运维人员而言:
- 提供丰富的运营、监控、调试功能,降低运维复杂度
PAI为运营人员提供了硬件、服务、作业的多级监控,同时开发者还可以通过日志、SSH等方便调试作业。