2026-03-17 22:10:30

3377体育-权威体育赛事平台-中国官方网站- 摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

分享

  导语:比拟会引起练习报错甚至中止的数据,静默数据过错会对于练习孕育发生更严峻的影响。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

作者|包永刚

编纂|林觉平易近

2025年12月12-13日,第八届GAIR全世界人工智能与呆板人年夜会于深圳·博林天瑞喜来登旅店正式启幕。

作为AI 产学研投界的标杆嘉会,GAIR自2016年开办以来,始终苦守“传承+立异”内核,始终致力在毗连技能前沿与财产实践。

于人工智能慢慢成为国度竞争焦点变量确当下,算力正之前所未有的速率重塑技能路径与财产布局。13日举办的「AI 算力新十年」专场聚焦智能系统的底层焦点——算力,从架构演进、生态构建到财产化落地睁开体系会商,试图为将来十年的中国AI财产,厘清要害变量与成长标的目的。

王华于「AI算力新十年」论坛发表了主题为《基在国产GPU集群的年夜范围练习实践》的演讲。

当海外头部公司已经经设置装备摆设十万卡、甚至二十万卡范围的 GPU 集群,万卡练习正于从“前沿摸索”改变为年夜模子研发的基础举措措施能力。模子参数范围进入万亿级以后,真正拉开差距的,已经再也不只是单卡机能,而是练习周期可否被压缩、体系是否持久不变、工程效率可否支撑高频迭代。

于如许的配景下,万卡练习所面对的挑战也发生了底子变化。节点妨碍、机能抖动、通讯与存储瓶颈,于集群范围被放年夜以后城市成为常态问题,许多于千卡范围下可以容忍的危害,于万卡场景中城市被年夜幅放年夜。

王华于演讲中将联合摩尔线程于国产 GPU 万卡级真实集群上的练习实践,体系拆解这一历程中碰到的要害难题,以和响应的工程解法。从并行计谋选择、练习前的模仿与腾飞查抄,到异步 Checkpoint、慢节点管理,再到静默数据过错、Hang 以和 Inf/NaN 等不变性问题的应答,他重点分享怎样经由过程软件栈、主动化与可不雅测系统,把万卡练习从“能跑”推进到“可连续不变地跑”。

这些经验并不是试验室结论,而是来自真实出产情况中重复验证后的工程堆集,他但愿摩尔线程的经验可以或许给想要做万卡练习的公司及机构一些借鉴。

如下是王华演讲的出色内容,雷峰网(公家号:雷峰网)作了不转变原意的收拾与编纂:

我是王华,卖力摩尔线程的AI与云计较相干营业。今上帝要及各人分享,咱们于年夜范围练习实践中碰到的一些问题,以和对于应的解决方案。

万卡练习咱们已经经会商及推进了一段时间。从去年最先到本年,咱们陆续于真实集群上推进相干事情,中间确凿碰到了年夜量问题。客不雅来看,年夜范围练习的技能挑战很年夜,但于这个历程中,咱们也慢慢把问题解决,并堆集了许多经验,今天与各人分享。

万卡练习为什么成为年夜模子的须要前提?

起首需要回覆的是,为何万卡,甚至更年夜范围的集群已经经成为须要前提?

从模子算力需求趋向来看,主流模子,像DeepSeek或者国产的万亿模子,基本都到了10的24次幂的量级。而外洋一些年夜的模子,虽然没有公然资料明确给出规格,但按照市道上传播的动静,像比力年夜的Grok四、GPT-5或者者比力新的Gemini3,基本城市到达10的25~26次幂的算力需求,这长短常巨年夜的算力需求。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

于海内,当前已经经开源的两个万亿参数模子,一个是 Kimi K2,另外一个是蚂蚁的百灵,它们的共计算量重要由两个因素决议:一是模子参数范围,对于在 MoE 模子来讲,焦点是激活参数;二是练习数据量。

Kimi K2 的计较量约莫是3×10的24次幂FLOPs,激活参数范围是 32B,练习数据是15T;百灵的计较量约莫是6×10的24次幂FLOPs,激活参数范围是50B,练习数据是20T。

假如以咱们当前这一代练习卡做一个估算,对于在3×10的24次幂FLOPs的算力需求来讲,年夜概需要半年的时间;假如扩展到5000卡,需要40天;到了万卡,就只需要23天。对于在百灵来讲,由于算力翻了一倍,对于应的时间也翻了一倍。对于年夜模子来讲,练习时间很是要害,此刻模子的竞争很是激烈,并且咱们常常会有一些新模子算法的试验,但愿快速看到成果,以是练习时间越短越好,最佳不要跨越一个月。

于海外,头部公司已经经设置装备摆设了十万卡甚至二十万卡范围的集群,更年夜范围的集群也于计划中了,这一标的目的于将来基本是确定性的趋向。

怎样把万卡练习集群「跑起来」?

缭绕年夜范围练习,摩尔线程从底层到顶层体系性地研发了软件栈。

于最底层,除了了硬件,重要是集群调理的部门;向上是MUSA平台,它与CUDA兼容性,使患上咱们可以快速地迁徙及运行模子;再往上是练习套件,针对于摩尔线程的平台,咱们对于 MegatronLM、DeepSpeed、PyTorch、TransformerEngine 等主流框架举行了适配及优化,而且全数开源,于GitHub上就能够找到;更高一层,是Model Studio以和一系列主动化练习及部署东西。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

于整个练习历程中,咱们存眷的焦点是练习效率。

从流程上看,年夜范围练习凡是包括腾飞查抄、练习拉起(成立通讯组、加载数据等)、正式练习、妨碍定位及处置惩罚、以和妨碍处置惩罚落伍入下一个周期。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

已往于千卡范围下,集群可能持续运行半个月甚至一个月都不出问题。但万卡集群,单个节点出问题的几率会显著上升。初期即即是英伟达的万卡集群,也曾经呈现几小时就出一次过错的环境,咱们于实践中一样履历了这一阶段。

是以,于万卡练习中,要晋升总体效率,一方面必需晋升正常练习阶段的机能,另外一方面则要尽可能压缩所有非练习环节的时间,包括腾飞查抄、checkpoint、妨碍定位与恢复。只有把这些环节的时间压到充足短,练习效率才有本色性晋升。

于机能优化层面,于腾飞练习前,需要确定并行计谋及超参。一种要领是可以经由过程现实拉起练习重复测验考试差别配置,但于万卡范围下,每一一次拉起实验的成本都很是高。为了降低成本,咱们采用了模仿的方式。

咱们开发并开源的SimuMax软件(可以于GitHub上找到),用在对于差别模子及差别集群范围下的练习机能举行估算,帮忙判定计谋的合理性,并预估总体练习时间。这一模仿基在一系列理论计较,可以帮忙判定当前练习是否已经经到达速率上限。假如到达,申明机能基本到位;假如没有到达,则象征着仍旧存于优化空间。缭绕这一方针,咱们于SimuMax中做了许多特征的撑持,包括差别模子布局、并行计谋、优化技能等。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

于万卡集群中,腾飞查抄长短常有效的特征。练习启动时,调理体系会分配资源,而节点的妨碍、亚康健状况,以和体系层面的收集或者存储异样,城市致使练习没法启动。

是以,咱们于练习启动前,会先运行一组特定的benchmark(基准测试),对于计较节点、收集、存储以和调理节点举行周全查抄。更主要的是,当检测出问题后,腾飞查抄会主动剔除了异样节点,再也不依靠人工参与,实现真实的无人值守练习启动。

Checkpoint 是另外一个对于效率影响很年夜的环节。假如采用同步写的方式,checkpoint 往往需要数分钟时间,这时期没法举行练习,整个集群处在闲置状况。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

为此,咱们实现了异步checkpoint:先将checkpoint写入当地内存,后续再异步写入存储体系,将checkpoint时间压缩到秒级。这么做对于在几千亿参数范围的模子来讲,checkpoint 写入只需几秒便可,练习可以当即继承履行。

于DP并行计谋的环境,其实不需要每一个节点都写checkpoint,咱们对于checkpoint举行切片,由差别节点卖力差别分片,防止反复写入及资源华侈。假如某个卖力分片的节点发生妨碍,则会分配其他节点完成写入使命。于读取阶段,假如某个节点挂失,彻底从后端存储读取会很是慢,咱们采用了P2P机制,直接从其他节点的内存中加载checkpoint,将加载时间压缩到半分钟之内。有了这些优化,咱们可以用很是高的频率来做checkpoint,例如每一十分钟做一次。

万卡练习的挑战:不变性与可控性

慢节点检测于年夜范围练习中一样很是要害,由于慢节点会拖慢整个集群的练习速率。慢节点的发明凡是有两个来历:一类是节点或者卡自己处在亚康健状况,于腾飞查抄阶段可以发明;另外一类是于运行历程中呈现亚康健状况,需要运行时的查抄。

咱们的解决方案是于练习历程中引入了总体监控机制。练习包罗前向流传及反向流传,中间包括多个通讯与计较步调,咱们会监控这些步调的履行时间。计较及通讯步调的履行时间总体上切合统计漫衍纪律,但不克不及拿绝对于值去看每一个步调的快慢,差别的模子时间纷歧样,咱们经由过程聚类阐发辨认某些异样的慢节点,并主动剔除了,整个历程彻底主动化。

静默数据过错也是一个棘手的问题。与引起练习报错甚至中止的问题差别,静默数据过错不会触发异样,也不会中止练习,数值看起来“正常”,但现实上已经经发生过错。造成静默数过错有几种缘故原由,一种是计较硬件有必然的妨碍率,于必然几率下可能会算错,就会造成静默数据;别的,内存或者显存上的ECC特征对于机能的影响比力年夜,于练习的历程可能没有开启;于传输的历程中,也会呈现纠错码掉效的环境,致使误码没有被发明。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

对于在稍微的数值过错,于万亿参数范围下往往会被其他数值平均失,影响不较着,可以继承练习。有一类是严峻过错,可能致使Loss值或者梯度呈现一个很是年夜的误差,Loss曲线会呈现异样尖峰,频仍呈现时会影响模子精度。假如这类问题常常发生,会致使练习精度的降落。还有有一种致命过错,数值异样通报并终极致使呈现NaN 或者Inf,致使练习中止,只能回退到以前的checkpoint举行回训。

由于很是难查抄,整个业界也还有于摸索,咱们一方面于硬件验收阶段及练习腾飞查抄阶段举行压力测试,及早辨认“体质较弱”的卡;另外一方面,压测要多算子笼罩,除了了GEMM、Attention外,还有会用一些履行较少的算子,由于差别算子会用到卡的差别部件,到达周全压力测试的目的。同时,咱们重点监控温度、电压等要害硬件指标,这些异样往往与过错高度相干。

Hang 问题一样是万卡练习中较为棘手的一类问题。一旦发生Hang,往往整个集群城市被Hang住。假如所有节点都Hang住,定位源头很是坚苦。咱们经由过程漫衍式阐发的方式,联合通讯库的日记,对于所有介入节点的Hang缘故原由举行记载及比对于,从而定位异样节点。

一般环境下,Hang经由过程重启便可恢复,但若某个节点常常Hang,会致使练习很是不不变,此时需要将该节点剔除了。解决Hang问题后,总体练习不变性会有较着晋升。

Inf(Infinity) 及 NaN(Not a Number)问题是业内遍及存于的难点,其难点于在流传性, Inf加减任何正常值,城市把正常值“吃失”。是以,咱们重点存眷 Inf/NaN 最早呈现的位置及时间点,定位那些频仍触发异样的算子或者阶段。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

于集群洞察方面,咱们会连续监控前向流传及反向流传中的计较及通讯时间,慢节点检测恰是基在这些数据做的阐发。同时,咱们引入了更周全的 Profiling 能力,可以于不中止练习的环境下,一键启动或者住手机能阐发器,按需收罗练习数据,并举行火焰图等算子级阐发,甚至可以将多个节点的数据会聚落伍行结合阐发。

摩尔线程王华:万卡训练中,最危险的往往是「不报错」|GAIR 2025

末了,是同一的可不雅测体系。咱们的可不雅测平台笼罩了年夜量体系与练习指标,即便前面的机制漏掉了问题,也能够于这里经由过程指标异样检测及结合阐发被捕捉。此前咱们也经由过程这一平台,快速定位过因为个体节点超温致使的异样问题,并进一步追溯到散热层面的缘故原由。

以上是咱们做的一部门事情,于已往的时间里,咱们堆集了许多经验,许多都落到来咱们产物里。此刻咱们也于万卡级另外集群上做一些练习事情,这方面的经验以和堆集的内容咱们分享给各人,但愿对于在后续想做年夜范围练习的公司及机构有必然的借鉴意义。

感激各人。

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

-3377体育-权威体育赛事平台-中国官方网站