外链论坛

 找回密码
 立即注册
搜索
查看: 4|回复: 0

效率加强 11 倍,PODsys 怎么样快速安排大模型 AI 算力平台?

[复制链接]

2599

主题

220

回帖

9910万

积分

论坛元老

Rank: 8Rank: 8

积分
99100658
发表于 6 天前 | 显示全部楼层 |阅读模式

作者 | Pu QIN

策划 | 凌敏

大模型是通用人工智能的底座,但大模型训练对算力平台的依赖非常大。大模型算力平台指的是支撑大模型训练和推理安排的算力基本设备包含业界最新的加速卡、高速互联网络、高性能分布式存储系统、液冷系统和有效易用的大模型开发工具和框架。在算力平台的安排过程中,大模型开发公司常常需要面对一系列的问题:大模型算力平台是什么样的?怎样快速构建大模型算力平台?怎样保证算力平台稳定靠谱怎样提高安排效率?怎样提高算力平台的性能……这些问题能否顺利处理,直接关系到大模型开发和应用落地的速度。

为了帮忙用户加速大模型的技术创新与应用落地,浪潮信息发布了大模型智算软件栈 OGAI(Open GenAI Infra)。OGAI 由 5 层架构构成,从 L0 到 L4 分别对应于基本设备层的智算中心 OS 制品、系统环境层的 PODsys 制品、调度平台层的 AIStation 制品、模型工具层的 YLink 制品和多模纳管层的 MModel 制品

其中 L1 层 PODsys 是一个为客户供给智算集群系统环境安排方法的开源项目,具备基本设备环境安装、环境安排、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,就可完成大模型算力平台的安排,将大模型算力平台安排效率提高 11 倍,帮忙用户顺利迈出大模型开发第1步。(下载位置:https://podsys.ai/)

大模型算力平台安排困难亟待求解

大模型参数量和训练数据繁杂性快速增多,对 AI 算力平台的建设提出了新的需求,即需要从数据中心规模化算力安排方向统一思虑大模型分布式训练对计算、网络和存储的需要特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足 AI 大模型的训练需要

强大的大模型算力平台不仅需要高性能的 CPU、GPU、存储、网络等硬件设备,还需要思虑区别硬件和软件之间的兼容性和版本选取保证驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台安排难度会呈指数级提升

首要,算力平台安排需要的关联驱动程序、软件包常常高达数十个,正确安装、安排并优化这些驱动程序与软件,需要专业的运维工程师和海量调试时间,严重影响安排效率。其次,为了保证算力平台的高性能和稳定运行,需要验证区别硬件环境下的软件适配,优化 BIOS、操作系统、底层驱动、文件系统和网络等多项指标,找到最优的选取,这一工作一样费时费力。另外,算力平台的资源状态处在时刻的变动中,倘若不进行恰当的资源调度与管理,很容易影响平台的资源利用率。

怎样快速安排大模型算力平台?

PODsys 专注于大模型算力平台安排场景,供给包含基本设备环境安装、环境安排、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、有效、兼容、易用的智算集群系统方法

PODsys 整合了大模型算力平台安排所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并供给了一系列的简化安排的脚本工具。运用这些工具只需要简单 2 个过程,PODsys 就可帮忙用户快速安排大模型算力平台。

过程 1:运用 docker run 命令快速起步 PODsys 系统。

PODsys 系统集成为了大模型算力平台安排所需的操作系统、GPU 驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并供给了一系列脚本工具来简化安排,让用户能够快速安装、配置和更新集群环境。PODsys 海量选择了业界广泛运用的主流开源系统、工具、框架和软件,来保证全部部署方法的开放性、兼容性和稳定性。

过程 2:运用 install_client 命令快速安排大模型算力平台的并行软件环境。

PODsys 将单机安排方式改成集群安排方式,可将安排效率提高 11 倍以上。在管理节点运行一句简单的命令(install_client.sh),就可完成大模型算力平台的环境配置,集成为了高速文件系统接口、自动化运维工具、NVDIA CUDA 编程框架、NCCL 高性能通信库,支持 NGC 加速平台等功能。并能实现多用户、多租户管理集群。

PODsys 供给了全面的系统监控和管理,帮忙用户实时监控集群的状态和性能指标。经过可视化的界面,用户能够查看集群资源的运用状况、作业的执行情况和性能瓶颈,从而即时调节集群配置和优化作业性能,来保准算力平台的高性能和稳定运行。

另外,PODsys 具备有效的资源调度和作业管理功能,能够按照用户的需要自动调度和管理作业,保证集群的资源利用率和作业的执行效率。

伴同着大模型的快速应用,算力平台的鲁棒性、易用性、安排效率作为用户关注的首要问题。针对商场用户,PODsys 还供给专业的算力平台性能调优服务。总之,PODsys 供给了一套完整的工具链,将大模型平台安排变得像系统安装同样简单,让用户省时、省力地安排大模型算力平台,助力大模型创新走好第1步。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

站点统计|Archiver|手机版|小黑屋|外链论坛 ( 非经营性网站 )|网站地图

GMT+8, 2024-10-3 21:22 , Processed in 0.064257 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2001-2023, Tencent Cloud.