2026-03-17 17:02:31

3377体育-权威体育赛事平台-中国官方网站- 昇思MindSpore实现超节点的「类单机开发体验」的三项关键能力

导语：“把超节点看成一台超等计较机来编程及调理。”

当年夜模子进入十万亿参数、长序列、稀少化及非法则布局并行成长的阶段，AI算力基础举措措施正于发生一次底子性变化：从传统办事器集群，演进为以高速互联为焦点的超节点架构。

2025年12月25日，昇思人工智能框架峰会于杭州召开。年夜会以“昇思MindSpore为超节点而生的AI框架”为主题，来自财产界、学术界及开源社区的多位佳宾，从差别角度给出了一个配合判定：AI基础举措措施已经经进入超节点时代，而AI框架正站于范式切换的临界点上。

超节点再也不只是多台办事器的简朴重叠，而是经由过程高速互联，于逻辑层面“像一台呆板同样进修、思索及推理”，具有资源池化、对于等架构与收集拓扑分层多样的特性。

昇思MindSpore开源社区技能委员会主席金雪锋于演讲中指出，年夜模子的演进正于同时带来三重挑战：

一是模子范围连续增加，片上内存压力急剧上升；

二是模子布局从单一语言模子走向全模态，子模子组合越发繁杂、不法则；

三是训推范式趋在异构，练习、推理与Agent运行需要协同编排。

金雪锋说，恰是这些变化，鞭策AI基础举措措施从“办事器集群时代”迈入“超节点时代”，AI框架将迎来新的架构范式。

昇思MindSpore给出的谜底是，把超节点看成一台“超等计较机”，于框架层面同一编程及调理，而不是闪开发者直接面临繁杂的集群拓扑及并行细节。

这一判定，同样成为昇思MindSpore提出“为超节点而生”的焦点逻辑出发点。

HyperParallel架构：把繁杂并行留给框架

“许多人听过超节点，但其实不真正理解超节点。”

于峰会以后的媒体沟通会上，现任昇思MindSpore开源社区理事长王紫东夸大这一点。

于他的注释中，超节点其实不是简朴地把更多NPU卡堆于一路，而是经由过程超高带宽互联，让年夜量计较单位于逻辑层面形成一个高度耦合的总体。卡与卡之间再也不是“慢速通讯的邻人”，而是随时可调理的数据通路。

这一变化，直接办事在一个实际需求：模子太年夜了，年夜到必需极致并行。

当模子被切分到数百、数千张卡上时，真实的瓶颈已经经再也不是算力自己，而是：

•数据何时该于哪一张卡上

•状况什么时候迁徙

•通讯与计较怎样堆叠

•并行计谋怎样随模子布局变化而调解

“硬件的机能上限提高了，但若软件跟不上，机能是用不出来的。”王紫东直言，超节点越强，对于AI框架的要求反而越高。

昇思MindSpore提出了一个清楚而激进的定位——把繁杂留给本身，把简朴留给开发者。

于传统集群时代，开发者往往需要手动理解并行计谋、通讯模式及硬件拓扑，而于超节点时代，这类模式已经经不成连续。集群拓扑愈来愈繁杂，节点范围愈来愈年夜，假如繁杂性继承外溢到开发层，开发效率及不变性将迅速崩塌。

MindSpore的选择，是让AI框架自己负担更多体系级责任，其方针，是闪开发者于超节点繁杂算力情况中仍能连结“类单机”的开发体验，而HyperParallel架构恰是实现这一方针的要害。

金雪锋于峰会上体系拆解了HyperParallel的三项要害能力。

起首是 HyperOffload。

跟着模子范围连续扩展，片上内存容量成为制约练习及推理的主要瓶颈。HyperOffload经由过程实现计较与状况分散，使用超节点的池化存储能力，将模子状况卸载到远端内存中，从而开释片上资源。于现实运用中，MindSpore给出的数据是：练习机能晋升20%以上，推理撑持的序列长度晋升70%以上，这不是简朴的“搬数据”，而是对于计较时序的切确调理。

其次是 HyperMPMD。

SPMD曾经经是AI并行的黄金尺度，但于多模态、强化进修、Agent 等场景下，它最先显患上僵直。HyperMPMD鞭策并行从 “所有节点做统一件事”，走向 “差别节点做差别使命”，这类 MPMD 模式，充实使用了超节点对于等互联的上风，让通算并发成为常态，于相干场景中，算力使用率可晋升 15% 以上。

第三是 HyperShard。

于传统号令式并行编程中，算法、并行计谋与集群架构高度耦合，新模子一旦呈现，往往需要对于并行方案举行年夜范围重构。HyperShard引入声明式并行编程方式，将算法与并行计谋解耦，同时屏蔽底层超节点收集拓扑的繁杂性。金雪锋暗示，于这一模式下，新算法的并行化革新时间可以压缩到1天之内，并行计谋调优从“天级”缩短至“小时级”。

从HyperOffload到HyperMPMD，再到HyperShard，昇思MindSpore的方针并不是单点机能晋升，而是让超节点的繁杂性由框架消化，而不是由开发者负担。

五年开源堆集：超节点能力为什么离不开社区

MindSpore为何“忽然变好用了”？

现任昇思MindSpore开源社区理事长王紫东并无从机能参数或者功效列表切入，而是给出了一个其实不“市场化”的判定尺度——社区Issue的自闭环率。

于他看来，一个康健的AI框架社区，其实不是依靠官方不停“救火”，而是开发者之间可以或许缭绕问题睁开会商，自立定位缘故原由、提交修复，并经由过程PR形成连续正反馈。“问题能不克不及于社区内部被解决，往往比解决患上有多快更主要。”王紫东说。

也恰是于这一意义上，他将MindSpore五年来最主要的结果，归结为两个字：社区。

华为在2020年3月28日正式开源昇思MindSpore。五年来，这一社区慢慢形陈规模效应：笼罩全世界156个国度及地域，累计下载量跨越1300万次，代码合入量跨越12万次，焦点孝敬开发者跨越5.2万人，并结合2000多家社区伙伴，孵化出3100多个行业运用。

这些数字自己其实不新鲜，但它们暗地里所指向的，是一条已经经被重复验证的路径——自立AI框架并不是关闭系统，而可以经由过程开放协作，形成连续演进的技能能力。

时任昇思MindSpore开源社区理事长丁诚于峰会上暗示，昇思始终对峙开放管理，践行“共建、共治、同享”的社区理念。一方面连续推进框架技能演进，另外一方面也经由过程课程、竞赛及工程实践，撑持AI人材从入门到深度介入开源生态，慢慢发展为财产中的中坚气力。

当这类社区能力与超节点架构联合时，其价值最先于真实工程场景中闪现。

中国工程院院士、中国商飞首席科学家吴辉煌于演讲中先容，中国商飞上海飞机设计研究院基在昇思MindSpore框架，推出了平易近机超临界翼型气动设计智能体“御风·智翼”，构建了基在工程经验的超临界翼型智能一站式解决方案。

吴辉煌指出，年夜飞机是“工业皇冠上的明珠”，而飞机气动设计直接决议平易近用飞机的要害机能，经由过程将AI框架与工程经验深度联合，相干设计研发正于向越发智能化、一体化的标的目的演进。这一实践，同样成为昇思MindSpore于繁杂工程范畴落地的一个缩影。

从办事器集群到超节点，从单一模子练习到多使命并行运行，AI 算力形态正于发生底子性变化。于这条变化曲线上，AI框架的脚色也随之改变——它再也不只是“让模子跑起来”的东西，而正于蜕变为毗连算力、模子与运用的构造者。

昇思MindSpore给出的选择，是将超节点带来的繁杂性尽可能收敛到框架内部，闪开发者没必要直接面临集群拓扑与并行细节，也没必要于模子布局变化时重复推倒重来。

这类选择其实不轻松。它象征着更重的体系工程投入、更长周期的技能堆集，也象征着必需依托一个真实活跃的开源社区，于实践中不停校订标的目的。

但于超节点逐渐成为主流算力形态、Agent 与多使命运行走向常态的配景下，AI 框架是否具有“消化繁杂性”的能力，正于成为新的分水岭。

也许恰是于这个意义上，昇思 MindSpore 缭绕超节点与开源睁开的摸索，其实不是一次伶仃的技能发布，而是一种关在AI框架怎样介入下一轮算力演进的实际回覆。

雷峰网（雷峰网(公家号：雷峰网)）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-3377体育-权威体育赛事平台-中国官方网站

3377体育-权威体育赛事平台-中国官方网站- 昇思MindSpore实现超节点的「类单机开发体验」的三项关键能力

推荐资讯