专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障-外链论坛

1fy07h 发表于 2024-7-9 14:35:51

专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障

<img src="https://mmbiz.qpic.cn/mmbiz_gif/0MlRpv01lCHEOx2NBmHjXaGmTqzVI9sEP5VyAmy5TGWwjIXHeANK8sk6OPNQ1b5H3XicIJCaib5jewxdccs5gicRg/640?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1" style="width: 50%; margin-bottom: 20px;">1    集合通信对分布式训练至关要紧在分布式训练中，每一起 GPU 只负责处理部分模型或数据。集群中区别 GPU 之间经过集合通信的方式，完成梯度同步和参数更新等操作，使得所有 GPU 能够做为一个整体加速模型训练。倘若有一起 GPU 在集合通信中出了情况，将会引起其他 GPU 处在等待状态，直到这块 GPU 完成数据同步，集群中所有 GPU 才会起始后续工作。因此，集合通信性能直接影响了分布式任务的速度，决定了集群中所有 GPU 能否形成合力加速模型训练。
为了最大提高集合通信的性能，在基本设备层面，集群一般采用基于 RDMA 的高性能理学网络，在任务运行时运用集合通信库进行加速。
2    大模型对系统的运维能力和稳定性提出新需求
咱们晓得，大模型的训练任务时长以周或月为周期，集群规模在千卡乃至万卡以上规模。这引起在全部任务过程中会出现各样故障，引起资源利用率不高或任务中断。这使得大模型的训练任务，不可只看重集群规模和性能，更必须关注系统的运维能力和稳定性。
倘若系统的运维能力和稳定性不足好，将会降低集群的「有效训练时长」，延长项目时间产生昂贵的时间成本。例如完成全部训练任务花了 30 天，结果有 10 天是在排除各类故障，这是不可接受的。
在分布式训练任务中，做为系统核心组件之一的集合通信库，一样必须面向大模型场景，在系统的运维能力和稳定性上进行优化。
3    百度集合通信库 BCCL 概述
<h2 style="color: black; text-align: left; margin-bottom: 10px;">百度集合通信库 BCCL（Baidu Collective Communication Library）是百度智能云推出的一款面向大模型训练场景优化的集合通信库，是百度百舸 3.0 中的要紧组件。</h2>
<h2 style="color: black; text-align: left; margin-bottom: 10px;">BCCL 基于开源的 NCCL 进行了功能扩展和能力加强，针对大模型训练场景在可观测性、故障诊断、稳定性等方面进行优化，进一步提高集合通信库的可运维能力。同期，BCCL 针对百度智能云的特定 GPU 芯片进行了集合通信性能优化，进一步提高资源利用率。相比 NCCL，BCCL 的重要特性如下：</h2>可观测性：新增集合通信带宽实时统计能力；故障诊断：新增集合通信 hang 时的故障诊断能力；稳定性：加强网络稳定性和故障容错能力；性能优化：提高大模型训练主流 GPU 芯片的集合通信性能。接下来，咱们将介绍 BCCL 在以上 4 个方面的能力。
<h2 style="color: black; text-align: left; margin-bottom: 10px;">4    可观测性：集合通信带宽实时统计</h2>4.1    背景在训练过程中，有时候会显现任务正常运行，然则集群的端到端性能下降的状况。显现这类问题，可能是集群中任一组件引起的。此时候就必须运维工程师对集群进行全面的检测。4.2    问题其中，存储系统、RDMA 网络、GPU 卡等一般都配有实时可观测性平台，能够在不中断任务运行的状况下判断是不是存在反常。相比之下，针对集合通信性能的判断，则缺乏实时和直接的手段。日前，若可疑集合通信存在性能问题，只能运用如下 2 种手段：运用 RDMA 流量监控平台进行故障排查。这种办法仅能间接推测出跨机集合通信性能是不是有反常。停止训练任务释放 GPU 资源，运用 nccl-test 进行二分查询，最后锁定显现故障的设备。虽然第 2 种办法能够完成集合通信反常的诊断，然则测试场景比较有限，只能判断是不是有常规的硬件反常问题。同期全部过程中会引起训练中断，产生昂贵的时间成本。4.3    特性和效果BCCL 的实时集合通信带宽统计功能，能够在训练过程中对集合通信性能进行实时观测，准确地展示集合通信在区别周期的性能表现，为故障诊断排除、训练性能调优等供给数据支撑。即使在繁杂通信模式下，BCCL 经过精确的打点技术依然能供给准确的带宽统计的能力。在集合通信性能反常的故障排除方面，能够进一步按照区别通信组的性能缩小故障范围。在混合并行模式下，能够经过多个性能反常的通信组的交集进一步确认故障节点。在训练性能优化方面，能够评定该带宽是不是打满硬件上限，是不是有其他的优化策略，为模型调优供给更加多的监控数据支撑。
<h2 style="color: black; text-align: left; margin-bottom: 10px;">5    故障诊断：集合通信故障诊断</h2>
5.1    背景
设备故障引起的训练任务反常停止，亦是大模型训练任务时常出现的情况。故障出现后，通常都会有报错日志或巡检反常告警，例如能够发掘某个 GPU 存在反常。在训练任务反常时，咱们只必须匹配反常时间点是不是有关联反常事件或告警，就可确认故障 root cause。除此之外，还存在着一类不告警的「静默故障」。当出现故障时，全部训练任务 hang 住，没法继续训练，然则进程不会反常退出，亦没法确认是哪个 GPU 或哪个故障节点引起训练任务 hang。然而，此类问题的排查难点在于，该类故障不会立刻出现，训练任务能够正常起步并正常训练，然则在训练超过一按时间后（可能是几个小时或数天）忽然 hang 住。排查时很难稳定复现该故障，引起排查难度进一步加强。5.2    问题因为集合通信的同步性，当某个 GPU 显现故障时，其他 GPU 仍会认为自己处在正常地等待状态。因此呢，当通信过程中断时，无 GPU 会输出反常日志，使得咱们很难快速定位到详细的故障 GPU。当上层应用程序在某一多 GPU 的集合通信操作中 hang 时，应用程序亦只能感知到某个集合通信组（故障 comm）显现了问题，却没法精确地判断是哪个 GPU 引起了此次集合通信的反常。运维工程师一般运用 nccl-test 来尝试复现和定位问题，然则因为压测时间短、测试场景简单，很难复现集合通信 hang。在百度集团内部排查此类问题时，首要停止线上的训练任务，而后进行长期的压测，例如针对现有训练任务模型进行切分，对集群设备进行分批次压测，持续缩小故障范围，从而确认故障机。排查代价一般必须 2 天乃至更加多。这类故障排查的时间，将带来巨大的集群停机成本。5.3    特性和效果为了应对这一挑战，在训练任务正常运行时，BCCL 实时记录集合通信内部的通信状态。当任务 hang 时，BCCL 会输出各个 rank 的集合通信状态。运维工程师能够按照这些数据特征来进一步缩小故障 GPU 的范围。经过这种办法，BCCL 经过一种近乎没损的方式实现了故障机的快速定位，大幅度加强了问题排查的效率。
<h2 style="color: black; text-align: left; margin-bottom: 10px;">6    稳定性：网络稳定性和容错加强</h2>6.1    背景在模型训练过程中，单个网络端口偶发性的 updown 会引起当前进程反常，从而导致全部训练任务退出。然而，单端口的偶发性 updown 在理学网络是不可避免的。6.2    特性和效果BCCL 针对此类偶发性的反常场景，进行了故障容错以避免任务退出，提高训练任务的稳定性。
掌控面容错能力提高：在训练任务起步时，一般会因为偶发性的网络故障或其他故障引起训练任务起步失败。BCCL 针对平常的偶发性反常故障增多相应的重试机制，保证训练任务正常起步。
数据面容错能力提高：在训练任务正常运行时，偶发性的网络抖动可能引起 RDMA 重传超次，从而引起全部训练任务反常。BCCL 优化了 RDMA 重传超次机制，提高训练任务的健壮性。
<h2 style="color: black; text-align: left; margin-bottom: 10px;">7    性能优化：集合通信性能优化</h2>针对大模型训练场景的主流 GPU 芯片，集合通信性能还存在继续提高的空间，进一步对任务进行加速。BCCL 针对百度智能云供给的主流的 GPU 芯片进行了深度优化。以双机 H800 测试环境为例，BCCL 相比 NCCL 带宽利用率可提高 10%。<img src="https://mmbiz.qpic.cn/sz_mmbiz_png/0MlRpv01lCFKDZVvFf6gZ7fdwmFXePBgDyBA74LAKibV6ahFicGAAibovOwB1ABbMFzHfrk6KsIx8lMKdvtJT7qgw/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/0MlRpv01lCFKDZVvFf6gZ7fdwmFXePBgAsrgogIjlRIwwxMFP3JXX4q5aXB0CTkehLXyDw2QHwsicV5ibS8xTq6g/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;"><img src="https://mmbiz.qpic.cn/sz_mmbiz_png/0MlRpv01lCFKDZVvFf6gZ7fdwmFXePBgfUPhWQcgf8PC0OmIicP0ibbOxqtP14HT238P3CCNVdlammYIbXCpYnzQ/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1" style="width: 50%; margin-bottom: 20px;">8    总结2023 年 12 月 20 日，百度百舸·AI 异构计算平台 3.0 发布，它是专为大模型优化的智能基本设备。借助 BCCL 在运维能力和稳定性进行的优化，使得百度百舸平台的有效训练时长达到 98%，带宽的有效利用率能够达到 95%。- - - - - - - - - - END - - - - - - - - - -点击阅读原文，认识 BCCL 更加多信息
传送门<a style="color: black;">大模型重构云计算</a><a style="color: black;">AI 原生时代的云计算</a><a style="color: black;">大规模 AI 高性能网络的设计与实践</a><a style="color: black;">GPU 容器虚拟化新能力发布和全场景实践</a><a style="color: black;">面向大模型的存储加速方法设计和实践</a><a style="color: black;">向量检索在大模型应用场景的技术和实践</a><a style="color: black;">大模型</a>时代的异构计算平台<a style="color: black;">高性能网络建设指南，《智算中心网络架构白皮书》开放下载</a>

b1gc8v 发表于 2024-9-27 14:03:43

交流如星光璀璨，点亮思想夜空。

wrjc1hod 发表于 2024-10-22 07:54:39

你的见解独到，让我受益匪浅，非常感谢。

1fy07h 发表于 7 天前

i免费外链发布平台 http://www.fok120.com/

页: [1]

外链论坛's Archiver

专为大模型训练优化，百度集合通信库 BCCL 万卡集群快速定位故障