3377体育-权威体育赛事平台-中国官方网站- 并行科技COO乔楠:英伟达并非断崖式领先,国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈
分享
导语:国产GPU市场每一年增加50%,但厂商活下去还有需找到细分赛道。

“有的项目花两三年时间把使用率做到30%,但装备寿命只有五年,等真正跑顺的时辰,硬件已经颠末时了。”并行科技COO乔楠对于雷峰网说。
他其实不讳言行业的盲区,算力行业看似门坎低,“有钱就能砸进去”,但许多进入者底子不懂市场行情以和技能选型,买错算力规格、配错运用场景以和没法提供客户需要的技能办事,终极造成资源闲置。
于市场实践中,技能问题激发的营业困境其实不少见。
为结构智算财产,某上市公司于对于办事器装备的组网方式、存储方案、机头选型等细节毫无相识的环境下,便盲目与头部人工智能公司签署互助方案,后续因没法交付切合要求的集群装备,终极只能发布通知布告终止两边互助。
“初期海内的算力市排场临的最年夜问题就是组网,但海内不跨越20个团队具有组网的能力,而这此中重要还有是互联网年夜厂。”一名从业者暗示。
已经经投入到现实运用场景中的集群,也一样碰面临技能危害,甚至可能因直接联系关系营业运转而造成更年夜影响。
某集团旗下DeepSeek云办事曾经发生的长达12小时宕机事务,其直接诱因于在算力调理算法存于设计缺陷,于营业拜候岑岭期,算法没法对于平台内的算力资源举行有用分配与动态调理,致使部门虚拟机因连续面对算力资源供应不足的问题,终极呈现瓦解,进而激发总体云办事宕机。
这些案例都指出:技能办事能力才是算力营业可连续运营及成长的要害。
跟着裸金属租赁营业趋势成熟,智算云成了市场的新核心,而技能办事能力则是摆布智算云竞争格式的要害变量。
年夜厂依附资金实力、生态范围与全链路技能贮备,于智算云场景中盘踞自然上风。反不雅中小智算云公司,既难于算力范围上与年夜厂抗衡,也轻易于技能办事的周全性上堕入被动,若找不赴任异化竞争标的目的,很轻易被挤压保存空间。
“云营业虽遵照马太效应,但并不是只有年夜厂能存活,像混淆云、当局云等细分范畴,都有专业玩家的保存空间。并行科技从降生起就深耕超算范畴,堆集的人材、经验与技能要领论均可以直接复用。这类‘细分范畴做深做透’的计谋,恰是中小玩家于年夜厂环伺下的保存要害。而没有构建壁垒的玩家,时间线拉长后城市被慢慢裁减。”乔楠说道。
二十余年的高机能计较经验让乔楠对于智算财产有更深刻的理解,他曾经担当英特尔高机能计较团队司理,2015年9月插手并行科技担当运用总监,后升任首席运营官,主导技能运用落地与营业运营。
基在如许的认知,他鞭策并行科技打造“算力买手”模式,将超算时代的资源调理经验延长到智算云办事,实现1小时内为客户匹配到最适合的算力资源,让供需两边高效匹配。
跟着算力行业慢慢进入后半场,市场的存眷点也从“算力年夜单”、“算力商业”回归到算力自己的技能、效率与适配性。帮忙过量家芯片厂商做优化的并行科技,对于国产芯片于当下的竞争情况中怎样突围有如何的理解?于超算这一细分赛道做到业内领先,又对于年夜厂围猎下的智算云竞争生态有何见解?以和怎样评定智算集群的效率,算力优化的结局又是甚么?
乔楠向雷峰网分享了缭绕算力财产从硬件、软件到行业生态的多维度洞察,为便在理解,访谈内容经编纂:
国产芯片突围计谋:摒弃对于「峰值机能」的过分寻求,看重撬动生态杠杆
雷峰网:海内算力集群90%以上用英伟达办事器,行业里好像有个共鸣,英伟达存于断崖式领先的上风,您怎样对待国产芯片及英伟达的差距?
乔楠:英伟达并不是断崖式领先,此刻英伟达可能就领先一到两年。咱们研究了英伟达的多款产物,他们此刻最年夜的问题是芯片机能慢慢靠近天花板,不管是集成度还有是焦点浮点计较能力的均衡性,这从英伟达的芯片布局巨细及成本组成就能够看出,以前是一个快速成长的曲线,此刻已经经平缓了很多。
于CPU时代,计较部件的工艺晋升是最轻易的,存储部件及收集部件的晋升的速率是远远掉队在CPU的,这会致使存储墙、收集墙的呈现,从而影响真实运用的效率,真实运用只能到达理论峰值机能的10%-20%,而这已经经是优化到极致的程度。
此刻GPU也最先近似的环境,于开源案例里,真实运用下最高效率是峰值机能的50%。英伟达从V100、A100、H100、H200到B200的迭代中,内存带宽使用率的晋升速率、通信访存比的优化速率,都跟不上计较机能的晋升速率,使患上它真正的运用的效率并无到达计较机能晋升的程度。
雷峰网:您怎样对待国产芯片的成长,国产芯片此刻比力好的切入点是甚么?
乔楠:国产芯片要体系的去看芯片设计,怎样更好的做到运用机能的晋升,而不是看标称峰值,此刻国产芯片许多标称峰值也不低,但现实跑起来比不上英伟达,缘故原由就于在芯片组的资源是有限的,好比你把90%的芯片设计都做成合适Transformer的核,可是把显存设计的尤其小,那效率就有可能年夜打扣头,可能理论峰值机能是英伟达的几倍,可是效率就低许多。于所有推理场景中,显存带宽及显存容量是很主要的指标,H20的峰值机能只有H100的五分之一,但显存容量及显存带宽很高,以是以前于海内很受接待。
另外一方面,芯片行业需要更多的投入生态及上下流设置装备摆设,英特尔芯片组的人数跟做生态的人数比例是1:5,生态是最难的,许多国产芯片厂商会感觉本身范围较小、人手不敷,这个时辰就要寻觅适合的上下流互助伙伴,可能你生态投入1小我私家就能撬动业内的10小我私家。
末了是市场容量的问题,之前全世界只有两家GPU厂商,AMD及英伟达。当下,于没有出海的环境下,国产GPU厂商发作到了十几家,不成能每一一家都能存活下去,中国这个市场每一年能增加50%,但厂商想要活下去还有是要找到本身的细分赛道。(国产算力替换“来势汹汹”,关在国产GPU厂商更多的产物细节和幕后故事,接待添加作者微信YONGGANLL6662交流更多信息)
雷峰网:假如国产芯片厂商找到并行科技,并行科技术怎么帮他去富厚生态?
乔楠:重要是两个方面,一个方面是咱们有一个团队可以帮忙国产芯片厂商做移植适配,去加快产物的运用落地。另外一方面,用户利用并行科技的算力,实在其实不于意底层用的是甚么芯片,只要求输入输出的速率更快,并行科技打造了一套帮忙国产芯片做验证的架构,验证精度、算法、机能没问题,就能够用性价比最佳的国产芯片的解决方案。
雷峰网:并行科技提到要“晋升基础架构设计能力”及“优化基础支撑组件”,详细的实行路径是如何的?
乔楠:焦点优化逻辑是“从硬件到软件的全链路适配优化”,详细分三个标的目的落地:
第一个是机能诊断东西,咱们做了Paramon运用运行机能阐发平台,它就像“CT扫描仪”,可以或许扫描智算集群,找出硬件设计问题及软件适配问题,然后找到要害路径以和热门函数,从硬件设计及软件优化相联合的方式去晋升总体体系的机能。
第二个是国产芯片的适配,此刻英伟达的middleware(中间件)、SDK及生态都是最佳的,许多国产GPU的适配性存于问题,需要做年夜量移植及优化。并行科技有个几十人的优化团队与国产芯片厂商连结互助,近来一年已经经把上百款运用移植到国产GPU上,取患上不错的成效,具有必然的竞争力,其实不像外界所说的与英伟达的差距很年夜。
第三个是生态互助与人材贮备。好比,中国最优异的系统架构人材来自在清华,而清华最优异的系统架构人材来自在计较机系,此中的一个创业团队就是清程极智,并行科技与清程极智会于底层架构设计长进行互助。别的,咱们每一年举办PAC并行运用挑战赛,现任Meta超等智能试验室成员的余家辉就是PAC2015届冠军,2014届冠军今朝于并行科技做优化标的目的。
末了是要尽可能刺激需求的发生,让需求更快、更广泛地落地。一个是立异运用场景的发明及推广,一个是降低成本。降低成本又分两类,一类是硬件成本的降落,它基本是摩尔定律式地往降落,每一年25%,但这是远远不敷的,以是年夜部门的成本降落来自在软件栈成本的降落,以DeepSeek为例,百万Token的成本翻番地往降落。年头到此刻,并行科技于DeepSeek上做的优化基本上实现了几十倍的机能晋升。
智算云“保存战”:年夜厂围猎下,押注「细分赛道」或者是独一活路
雷峰网:当下的算力行业袒露了很多问题,好比办事器房钱降落激发的背约退租,您感觉这些征象暗地里的焦点缘故原由是甚么?
乔楠:外貌是短时间的供求瓜葛问题,可是焦点是算力行业的“重资产+快折旧”属性,再叠加部门介入者的认知误差。
起首,算力是个重资产投入的行业,投入后的出清历程较长,属在典型的投入高但回本周期长的买卖。装备投下去后使用率上不来,运营方只能蚀本谋划,能做到收入笼罩电费,都算挽回了部门丧失。
其次,行业看似门坎低,“有钱就能砸进去”,但许多进入者底子不懂技能选型,好比买错算力规格、匹配错运用场景,致使算力资源的错配。
处所的一些引导也存于误差,认为可以参照IDC设置装备摆设的乐成经验,适度提早结构算力基建,但算力装备的利用年限很短,是一个快速折旧的产物,一般折旧周期就5年,许多处所的项目泯灭很年夜精神,用两三年的时间把办事器的使用率做起来,往往这个时辰装备就过时了。幸亏国度本年已经经留意到这个问题了,也于出台一些政策。
雷峰网:算力资源错配严峻,那智算云、算力平台或者算力网,是否是解决这一问题的有用手腕?
乔楠:必定能于必然水平上解决供需错配的问题,焦点逻辑很简朴,不管是“东数西算”还有是算网协同调理,素质都是用“毗连”把分离的需乞降供应匹配起来,加速生意业务节拍。
以并行科技为例,咱们经由过程算力收集模式已经接入47家智算中央及15家超算中央,并按照用户差别的行业属性及运用场景的差异化,对于一些算力集群举行适量革新,把这部门算力资源与用户的场景及运用特性相匹配,晋升算力中央的使用率。算网不只是“技能调理网”,更是“生意业务调理网”,不克不及只盯着技能参数,还有要帮供应端找到精准需求,这才是解决错配的要害。
雷峰网:并行科技有经由过程革新算力集群,从而提高其算力使用率的详细案例吗?
乔楠:初期咱们对于接过一个供给商,他们把算力集群的计较访存比设计患上尤其小,致使集群只能支撑10%摆布的事情负载,基本处在“闲置”状况。咱们参与后,第一步是加年夜存储及内存配置,调解硬件适配逻辑;第二步是经由过程算网平台筛选适配的用户场景,好比把它对于接给计较压力中等的科研项目。革新后,这个集群的事情负载晋升到60%,并且接入了上千个客户。
雷峰网:并行科技针对于差别场景推出了超算云、智算云、智造云,这么细分的结构是基在甚么判定?
乔楠:以前于英特尔、遐想和HPC厂商做超算的人,厥后都散落于智算这个行业里,业内共鸣是智算就是超等计较的一个细分场景,优化的要领论及设计的要领论都同样,只不外针对于的场景是GPU场景,素质上都于遵照更快、更强的原则。
超算云、智算云、智造云是针对于差别场景的超等计较机云化产物,这是并行科技跟云年夜厂的区分,云年夜厂这几年才最先结构智算,但并行科技从降生的第一天起就于做这个工作,以是并行堆集了许多人材、经验及Know-how,这些堆集可让并行科技于任何底层还有是超等计较机的风口上复用。
雷峰网(公家号:雷峰网):您提到超算及智算的要领论相通,那是否是可以理解为,有超算经验的团队做智算,会有“降维冲击”的效果?
乔楠:2003到2004年时期,我就于介入优化遐想深腾6800超等计较机,篮球场巨细的装备,几百台装备统共阐扬的算力是4TFlops,此刻一张GPU算力卡就远超这个程度。固然,浮点精度有差异,初期是双浮点,此刻是半精度,差了8倍摆布,但从量级上看,已往是T级,此刻是P级(1PFLOPS=1000TFLOPS),20年里芯片集成度晋升了许多。
从超算到智算,有许多经验确凿能复用,并且效率差距很较着。好比一个从零最先的智算团队,要run up起来至少需要3到5年,而有超算经验的团队,一两个月就能落地。
雷峰网:云营业很看重营收范围,技能收敛以后,怎样面临与年夜厂的竞争?
乔楠:营收范围是乐成的一定因素之一,只要切合马太效应的营业,城市有如许的特征,但这不料味着终极只有一两家公司能胜出。
跟传统的云营业同样,会有许多于细分赛道里存活下来的企业,有混淆云、当局云,并行科技是超算这个细分范畴的第一位,只要可以或许找到一个细分的营业场景,这个营业场景跟云年夜厂有必然的差异化,就可以活患上还有不错,但把这件工作做好也面对比力高的门坎,持久来讲小玩家必然会消散,可是会有一批细分范畴的领头羊活下来。
雷峰网:并行科技打造的“算力买手模式”很受行业存眷,这类模式的焦点是甚么?
乔楠:算力买手模式的素质,是用并行的专业能力帮用户避坑,焦点是从需求出发,1小时内匹配最优算力。
第一步是需求拆解,好比,用户说要跑年夜模子练习/推理,就需要进一步问清晰“模子参数(7B/13B/70B)、练习周期、精度要求、成本预算”,同时把步伐的运用运行特性画出来,是计较密集型,现存带宽密集型,还有是收集通讯密集型?这是第一层阐发。再细睁开,例如,计较密集型又可以拆成对于fp32,fp16,fp8的GPU使用率的出现。咱们把用户的需乞降运用特性一层层列出来,就能够把恍惚需求转化为详细参数,好比“需要16张显存≥40GB的GPU,计较密集型,FP8精度要到达xxpflops浮点峰值,显存带宽与节点内节点间带宽不是重要瓶颈,GPU机头的内存带宽要到达300GB/s,单卡时成本≤2元,等等”。
第二步是资源筛选,并行科技接入了几百家超算、智算中央及算力厂商的资源,会按照用户参数主动筛选,解除不切合的选项。好比用户要单卡时成本≤2元的,就解除溢价高的厂商,末了剩下3-5个候选。
第三步是方案整合,咱们会对于候选资源做二次验证,好比测试某款国产GPU的模子适配度、某智算中央的收集不变性,然后把最优资源整合到并行的算法平台里,给用户提供一站式办事。
雷峰网:算力的高投入象征着许多时辰需要为客户提供定制化办事,这会不会致使公司的职员压力很年夜?
乔楠:根据二八定律,对于年夜客户必定要实施定制化办事。对于在中小客户,并行科技会提供7×24小时的办事,而且是分钟级的相应,工程师险些都是硕士生,这个活还有是很苦很累的。
不外,AI时代咱们也做了一些智能客服去做增补,基在咱们以前堆集的数据以和专家库开发了一套客服体系,包括动静传送以和智能的数据挖掘。今朝,咱们已经经堆集了几百万条技能办事相干的数据,这都是私域数据,练习出来的体系有很高的专业度,此刻基本上办事相应每一年可以或许提效25%。
雷峰网:并行科技的办事也于遵照摩尔定律。
乔楠:对于,我常常跟技能办事的卖力人说,你今天办事了一卡时,你来岁再办事一卡时的含金量就降落了不少,咱们的办事也需要遵照摩尔定律,不停扩展办事的效率。
智算集群迭代标的目的:异构推理存于合理性,优化的结局是买通财产链
雷峰网:此刻开源模子愈来愈多,许多行业也打造了垂直模子,模子数目增长对于AI Infra这一层会有甚么样的影响?
乔楠:必定是功德,开源模子愈来愈多会对于AI架构、AI Infra孕育发生刺激作用。
常识的开放、架构的开放会吸引愈来愈多的人介入进来,底层的系统架构可以或许孕育发生正反馈,就会有愈来愈多做AI Infra的人介入开源模子的优化及互助,形成一个正轮回,这是软硬件两边互相协同开放之下孕育发生的。
早于CPU时代,异构一直是系统架谈判软件层面之间的一个抵牾。英伟达的强盛重要于在CUDA生态,而打造CUDA生态的缘故原由就是传统CPU的编程模子不合适GPU,开发者于GPU长进行开发门坎过高。
开源模子多了以后,Paramon就能够于开源模子上去做很是多机能数据的收罗,使咱们对于差别硬件的理解加深,并鞭策响应的硬件举行革新,让强盛的开源模子有愈来愈多的硬件去匹配,假如行业内都是关闭模子,就很难去鞭策这个事。
雷峰网:国产算力替换让异构集群的观点很火,但有业内子士认为异构集群是一个“事倍功半”的伪命题,您怎样对待这一不雅点?
乔楠:起首异构有许多界说,多个集群异构、单个集群多个节点异构以和节点内部差别的异构,以和单个集群差别芯片的异构。异构集群是具有合理性的,以DeepSeek为例,它有Prefill阶段及Decode阶段,这对于硬件的要求是纷歧样的,一个是计较密集型,一个是显存密集型的,这两个阶段彻底可以拿差别的硬件去匹配,这个就是具有合理性的异构。
许多人认为异构集群有问题,是由于于练习场景里,异构集群是不可立的。练习场景的算法是把一个使命分到差别的计较单位,每一个计较单位及计较节点做不异的使命,并且他们很是紧耦合的互相通信来同步一些进展,于这类前提下,就会呈现木桶短板效应,任何一个节点的机能差城市影响到整个集群的机能,使患上整个集群的机能以最差的节点为单元×整个节点的数目。推理阶段的算法变化使患上异构集群有了可能性,并且有可能会晋升性价比且降低成本。
以是说于将来的多场景下,国产芯片厂商必然要找到一个细分产物,然后成为第一位,比如一些芯片,甚至不是冯诺依曼架构、不因此计较为中央点去设计,而因此显存为中央点去设计,这些可能性都是存于的。
雷峰网:许多人会用MFU(模子算力使用率)评价集群效率,您感觉评价集群效率的焦点指标是甚么?
乔楠:MFU是重要指标,但不是独一指标,影响集群效率的第一因素是使用率,假如集群总体使用率低,那单节点使用效率再高,总体效率还有是差。好比一个集群有100个节点,只用到20个,就算这20个节点MFU到达90%,总体效率也只有18%。
其次,MFU的解读要联合场景,特别是推理场景。好比有的推理集群MFU绝对于值很高,但SLA(办事质量)差,几秒钟才输出一个Token,那MFU再高也没意义,用户要的是“有用输出”。MFU的真正价值是“权衡非计较部件的瓶颈”:MFU越高,申明存储、收集等非计较部件的瓶颈越小,计较部件能更高效运转,以是行业才一直拿MFU作为一个主指标,而这内里实在也藏着许多成长的趋向。
雷峰网:有业内子士认为“最年夜水平地使用计较资源”实在就是算力优化这个门路上终极评价技能优劣的尺度,您怎样对待这个不雅点?
乔楠:使用计较资源很主要,但不是结局,结局是设计,使用是现有的拼凑,最底子的是设计好计较资源,而设计的界说就有许多方面,好比不是设计计较资源,而是设计计较资源收集,单一的结点、单一的集群只是于这个层面上的机能点,可是从全局点来讲,使用率的抵牾年夜在部件的机能,全局算网的级别是高在单节点或者单集群的机能的。
此外,假如结局是使用,那只能于卖场的这个层面,但结局实在是要买通财产链的,就不单单局限在算力部件,甚至是IDC、能源,把财产链的每个点优化到极致。
雷峰网:算力行业于慢慢走出初期泡沫阶段,您对于算力行业将来的成长趋向有如何的研判?
乔楠:做好算力办事的难度长短常年夜的,高投入、高危害,你一旦做欠好,可能就会造成算力资源的错配。此刻硬件飞速成长,摩尔定律于必然水平上依然发生作用,而软件的成长是十倍在摩尔定律的。这就象征着你今天采购的装备,它合适DeepSeek3.0,但DeepSeek4.0出来后,它的运用的热门有可能彻底变了,对于硬件的要求也就变了,前期的硬件投入就可能血本无归。
对于芯片厂商也是同样的,有些硬件年夜厂初期用INT8计较格局,但此刻FP8才是主流,这就会致使厂商鞭策这一部门营业比力艰巨,由于它的正确度遭到了影响。固然此刻也和时推出了FP8,可是业内是否是会酿成FP4呢?也很难判定。
算力是一个周期性的行业,有淡季及旺季,几年供过在求,几年又求过于供。由于素质上这是一个比力滞后,可是出清时间比力长的行业,各人说算力紧张了最先设置装备摆设了,建完一年已往了,以是他是滞后的,可是出清又艰巨,这就致使了周期性,而周期性素质就是错配。
但行业总体是向上成长的,只是有波峰波谷,以是持久是乐不雅的,短时间是疾苦的,此刻是很残暴的,将来也只有少数细分范畴的头部玩家能存活。
专题先容
2023年来,智算财产迎来发作式增加。但两年已往,海内智算企业的保存状况怎样?于技能冲破与场景落地中做了哪些新摸索、又面对甚么新挑战?智算行业的将来还有有甚么想象空间?本专题与一众智算范畴的前锋从业者对于话,回首最近几年智算行业于技能与贸易上的拓展实践过程,并瞻望将来成长标的目的。即便身处行业天气更迭之际,从业者们依附聪明与韧性、怀揣对于智算将来的坚信,斥地多样化成长路径。对于此专题感兴致的从业者,接待添加微信YONGGANLL6662配合介入会商。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
-3377体育-权威体育赛事平台-中国官方网站