作者 | Pu QIN
策划 | 凌敏
大模型是通用人工智能的底座,但大模型训练对算力平台的依赖非常大。大模型算力平台指的是支撑大模型训练和推理安排的算力基本设备,包含业界最新的加速卡、高速互联网络、高性能分布式存储系统、液冷系统和有效易用的大模型开发工具和框架。在算力平台的安排过程中,大模型开发公司常常需要面对一系列的问题:大模型算力平台是什么样的?怎样快速构建大模型算力平台?怎样保证算力平台稳定靠谱?怎样提高安排效率?怎样提高算力平台的性能……这些问题能否顺利处理,直接关系到大模型开发和应用落地的速度。
为了帮忙用户加速大模型的技术创新与应用落地,浪潮信息发布了大模型智算软件栈 OGAI(Open GenAI Infra)。OGAI 由 5 层架构构成,从 L0 到 L4 分别对应于基本设备层的智算中心 OS 制品、系统环境层的 PODsys 制品、调度平台层的 AIStation 制品、模型工具层的 YLink 制品和多模纳管层的 MModel 制品。
其中 L1 层 PODsys 是一个为客户供给智算集群系统环境安排方法的开源项目,具备基本设备环境安装、环境安排、用户管理、系统监控和资源调度等能力。用户只需执行两条简单的命令,就可完成大模型算力平台的安排,将大模型算力平台安排效率提高 11 倍,帮忙用户顺利迈出大模型开发的第1步。(下载位置:https://podsys.ai/)
大模型算力平台安排困难亟待求解
大模型参数量和训练数据繁杂性快速增多,对 AI 算力平台的建设提出了新的需求,即需要从数据中心规模化算力安排的方向,统一思虑大模型分布式训练对计算、网络和存储的需要特点,并集成平台软件、结合应用实践,充分关注数据传输、任务调度、并行优化、资源利用率等,设计和构建高性能、高速互联、存算平衡的可扩展集群系统,以满足 AI 大模型的训练需要。
强大的大模型算力平台不仅需要高性能的 CPU、GPU、存储、网络等硬件设备,还需要思虑区别硬件和软件之间的兼容性和版本选取,保证驱动和工具的适配性和稳定性。当算力平台的规模从十几台服务器扩展到几百台,平台安排难度会呈指数级提升。
首要,算力平台安排需要的关联驱动程序、软件包常常高达数十个,正确安装、安排并优化这些驱动程序与软件,需要专业的运维工程师和海量调试时间,严重影响安排效率。其次,为了保证算力平台的高性能和稳定运行,需要验证区别硬件环境下的软件适配,优化 BIOS、操作系统、底层驱动、文件系统和网络等多项指标,找到最优的选取,这一工作一样费时费力。另外,算力平台的资源状态处在时刻的变动中,倘若不进行恰当的资源调度与管理,很容易影响平台的资源利用率。
怎样快速安排大模型算力平台?
PODsys 专注于大模型算力平台安排场景,供给包含基本设备环境安装、环境安排、用户管理、系统监控和资源调度在内的完整工具链,旨在打造一个开源、有效、兼容、易用的智算集群系统方法。
PODsys 整合了大模型算力平台安排所需的数十个驱动、软件等安装包以及对应的依赖和兼容关系,并供给了一系列的简化安排的脚本工具。运用这些工具只需要简单 2 个过程,PODsys 就可帮忙用户快速安排大模型算力平台。
过程 1:运用 docker run 命令快速起步 PODsys 系统。
PODsys 系统集成为了大模型算力平台安排所需的操作系统、GPU 驱动、网卡驱动、通信加速库等数十个驱动程序、软件和安装包,并供给了一系列脚本工具来简化安排,让用户能够快速安装、配置和更新集群环境。PODsys 海量选择了业界广泛运用的主流开源系统、工具、框架和软件,来保证全部部署方法的开放性、兼容性和稳定性。
过程 2:运用 install_client 命令快速安排大模型算力平台的并行软件环境。
PODsys 将单机安排方式改成集群安排方式,可将安排效率提高 11 倍以上。在管理节点运行一句简单的命令(install_client.sh),就可完成大模型算力平台的环境配置,集成为了高速文件系统接口、自动化运维工具、NVDIA CUDA 编程框架、NCCL 高性能通信库,支持 NGC 加速平台等功能。并能实现多用户、多租户管理集群。
PODsys 供给了全面的系统监控和管理,帮忙用户实时监控集群的状态和性能指标。经过可视化的界面,用户能够查看集群资源的运用状况、作业的执行情况和性能瓶颈,从而即时调节集群配置和优化作业性能,来保准算力平台的高性能和稳定运行。
另外,PODsys 具备有效的资源调度和作业管理功能,能够按照用户的需要自动调度和管理作业,保证集群的资源利用率和作业的执行效率。
伴同着大模型的快速应用,算力平台的鲁棒性、易用性、安排效率作为用户关注的首要问题。针对商场用户,PODsys 还供给专业的算力平台性能调优服务。总之,PODsys 供给了一套完整的工具链,将大模型平台安排变得像系统安装同样简单,让用户省时、省力地安排大模型算力平台,助力大模型创新走好第1步。
|