2026-03-19 00:12:56

3377体育-权威体育赛事平台-中国官方网站- 并行科技COO乔楠：英伟达并非断崖式领先，国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈

导语：国产GPU市场每一年增加50%，但厂商活下去还有需找到细分赛道。

并行科技COO乔楠：英伟达并非断崖式领先，国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈

“有的项目花两三年时间把使用率做到30%，但装备寿命只有五年，等真正跑顺的时辰，硬件已经颠末时了。”并行科技COO乔楠对于雷峰网说。

他其实不讳言行业的盲区，算力行业看似门坎低，“有钱就能砸进去”，但许多进入者底子不懂市场行情以和技能选型，买错算力规格、配错运用场景以和没法提供客户需要的技能办事，终极造成资源闲置。

于市场实践中，技能问题激发的营业困境其实不少见。

为结构智算财产，某上市公司于对于办事器装备的组网方式、存储方案、机头选型等细节毫无相识的环境下，便盲目与头部人工智能公司签署互助方案，后续因没法交付切合要求的集群装备，终极只能发布通知布告终止两边互助。

“初期海内的算力市排场临的最年夜问题就是组网，但海内不跨越20个团队具有组网的能力，而这此中重要还有是互联网年夜厂。”一名从业者暗示。

已经经投入到现实运用场景中的集群，也一样碰面临技能危害，甚至可能因直接联系关系营业运转而造成更年夜影响。

某集团旗下DeepSeek云办事曾经发生的长达12小时宕机事务，其直接诱因于在算力调理算法存于设计缺陷，于营业拜候岑岭期，算法没法对于平台内的算力资源举行有用分配与动态调理，致使部门虚拟机因连续面对算力资源供应不足的问题，终极呈现瓦解，进而激发总体云办事宕机。

这些案例都指出：技能办事能力才是算力营业可连续运营及成长的要害。

跟着裸金属租赁营业趋势成熟，智算云成了市场的新核心，而技能办事能力则是摆布智算云竞争格式的要害变量。

年夜厂依附资金实力、生态范围与全链路技能贮备，于智算云场景中盘踞自然上风。反不雅中小智算云公司，既难于算力范围上与年夜厂抗衡，也轻易于技能办事的周全性上堕入被动，若找不赴任异化竞争标的目的，很轻易被挤压保存空间。

“云营业虽遵照马太效应，但并不是只有年夜厂能存活，像混淆云、当局云等细分范畴，都有专业玩家的保存空间。并行科技从降生起就深耕超算范畴，堆集的人材、经验与技能要领论均可以直接复用。这类‘细分范畴做深做透’的计谋，恰是中小玩家于年夜厂环伺下的保存要害。而没有构建壁垒的玩家，时间线拉长后城市被慢慢裁减。”乔楠说道。

二十余年的高机能计较经验让乔楠对于智算财产有更深刻的理解，他曾经担当英特尔高机能计较团队司理，2015年9月插手并行科技担当运用总监，后升任首席运营官，主导技能运用落地与营业运营。

基在如许的认知，他鞭策并行科技打造“算力买手”模式，将超算时代的资源调理经验延长到智算云办事，实现1小时内为客户匹配到最适合的算力资源，让供需两边高效匹配。

跟着算力行业慢慢进入后半场，市场的存眷点也从“算力年夜单”、“算力商业”回归到算力自己的技能、效率与适配性。帮忙过量家芯片厂商做优化的并行科技，对于国产芯片于当下的竞争情况中怎样突围有如何的理解？于超算这一细分赛道做到业内领先，又对于年夜厂围猎下的智算云竞争生态有何见解？以和怎样评定智算集群的效率，算力优化的结局又是甚么？

乔楠向雷峰网分享了缭绕算力财产从硬件、软件到行业生态的多维度洞察，为便在理解，访谈内容经编纂：

国产芯片突围计谋：摒弃对于「峰值机能」的过分寻求，看重撬动生态杠杆

雷峰网：海内算力集群90%以上用英伟达办事器，行业里好像有个共鸣，英伟达存于断崖式领先的上风，您怎样对待国产芯片及英伟达的差距？

乔楠：英伟达并不是断崖式领先，此刻英伟达可能就领先一到两年。咱们研究了英伟达的多款产物，他们此刻最年夜的问题是芯片机能慢慢靠近天花板，不管是集成度还有是焦点浮点计较能力的均衡性，这从英伟达的芯片布局巨细及成本组成就能够看出，以前是一个快速成长的曲线，此刻已经经平缓了很多。

于CPU时代，计较部件的工艺晋升是最轻易的，存储部件及收集部件的晋升的速率是远远掉队在CPU的，这会致使存储墙、收集墙的呈现，从而影响真实运用的效率，真实运用只能到达理论峰值机能的10%-20%，而这已经经是优化到极致的程度。

此刻GPU也最先近似的环境，于开源案例里，真实运用下最高效率是峰值机能的50%。英伟达从V100、A100、H100、H200到B200的迭代中，内存带宽使用率的晋升速率、通信访存比的优化速率，都跟不上计较机能的晋升速率，使患上它真正的运用的效率并无到达计较机能晋升的程度。

雷峰网：您怎样对待国产芯片的成长，国产芯片此刻比力好的切入点是甚么？

乔楠：国产芯片要体系的去看芯片设计，怎样更好的做到运用机能的晋升，而不是看标称峰值，此刻国产芯片许多标称峰值也不低，但现实跑起来比不上英伟达，缘故原由就于在芯片组的资源是有限的，好比你把90%的芯片设计都做成合适Transformer的核，可是把显存设计的尤其小，那效率就有可能年夜打扣头，可能理论峰值机能是英伟达的几倍，可是效率就低许多。于所有推理场景中，显存带宽及显存容量是很主要的指标，H20的峰值机能只有H100的五分之一，但显存容量及显存带宽很高，以是以前于海内很受接待。

另外一方面，芯片行业需要更多的投入生态及上下流设置装备摆设，英特尔芯片组的人数跟做生态的人数比例是1：5，生态是最难的，许多国产芯片厂商会感觉本身范围较小、人手不敷，这个时辰就要寻觅适合的上下流互助伙伴，可能你生态投入1小我私家就能撬动业内的10小我私家。

末了是市场容量的问题，之前全世界只有两家GPU厂商，AMD及英伟达。当下，于没有出海的环境下，国产GPU厂商发作到了十几家，不成能每一一家都能存活下去，中国这个市场每一年能增加50%，但厂商想要活下去还有是要找到本身的细分赛道。（国产算力替换“来势汹汹”，关在国产GPU厂商更多的产物细节和幕后故事，接待添加作者微信YONGGANLL6662交流更多信息）

雷峰网：假如国产芯片厂商找到并行科技，并行科技术怎么帮他去富厚生态？

乔楠：重要是两个方面，一个方面是咱们有一个团队可以帮忙国产芯片厂商做移植适配，去加快产物的运用落地。另外一方面，用户利用并行科技的算力，实在其实不于意底层用的是甚么芯片，只要求输入输出的速率更快，并行科技打造了一套帮忙国产芯片做验证的架构，验证精度、算法、机能没问题，就能够用性价比最佳的国产芯片的解决方案。

雷峰网：并行科技提到要“晋升基础架构设计能力”及“优化基础支撑组件”，详细的实行路径是如何的？

乔楠：焦点优化逻辑是“从硬件到软件的全链路适配优化”，详细分三个标的目的落地：

第一个是机能诊断东西，咱们做了Paramon运用运行机能阐发平台，它就像“CT扫描仪”，可以或许扫描智算集群，找出硬件设计问题及软件适配问题，然后找到要害路径以和热门函数，从硬件设计及软件优化相联合的方式去晋升总体体系的机能。

第二个是国产芯片的适配，此刻英伟达的middleware（中间件）、SDK及生态都是最佳的，许多国产GPU的适配性存于问题，需要做年夜量移植及优化。并行科技有个几十人的优化团队与国产芯片厂商连结互助，近来一年已经经把上百款运用移植到国产GPU上，取患上不错的成效，具有必然的竞争力，其实不像外界所说的与英伟达的差距很年夜。

第三个是生态互助与人材贮备。好比，中国最优异的系统架构人材来自在清华，而清华最优异的系统架构人材来自在计较机系，此中的一个创业团队就是清程极智，并行科技与清程极智会于底层架构设计长进行互助。别的，咱们每一年举办PAC并行运用挑战赛，现任Meta超等智能试验室成员的余家辉就是PAC2015届冠军，2014届冠军今朝于并行科技做优化标的目的。

末了是要尽可能刺激需求的发生，让需求更快、更广泛地落地。一个是立异运用场景的发明及推广，一个是降低成本。降低成本又分两类，一类是硬件成本的降落，它基本是摩尔定律式地往降落，每一年25%，但这是远远不敷的，以是年夜部门的成本降落来自在软件栈成本的降落，以DeepSeek为例，百万Token的成本翻番地往降落。年头到此刻，并行科技于DeepSeek上做的优化基本上实现了几十倍的机能晋升。

智算云“保存战”：年夜厂围猎下，押注「细分赛道」或者是独一活路

雷峰网：当下的算力行业袒露了很多问题，好比办事器房钱降落激发的背约退租，您感觉这些征象暗地里的焦点缘故原由是甚么？

乔楠：外貌是短时间的供求瓜葛问题，可是焦点是算力行业的“重资产+快折旧”属性，再叠加部门介入者的认知误差。

起首，算力是个重资产投入的行业，投入后的出清历程较长，属在典型的投入高但回本周期长的买卖。装备投下去后使用率上不来，运营方只能蚀本谋划，能做到收入笼罩电费，都算挽回了部门丧失。

其次，行业看似门坎低，“有钱就能砸进去”，但许多进入者底子不懂技能选型，好比买错算力规格、匹配错运用场景，致使算力资源的错配。

处所的一些引导也存于误差，认为可以参照IDC设置装备摆设的乐成经验，适度提早结构算力基建，但算力装备的利用年限很短，是一个快速折旧的产物，一般折旧周期就5年，许多处所的项目泯灭很年夜精神，用两三年的时间把办事器的使用率做起来，往往这个时辰装备就过时了。幸亏国度本年已经经留意到这个问题了，也于出台一些政策。

雷峰网：算力资源错配严峻，那智算云、算力平台或者算力网，是否是解决这一问题的有用手腕？

乔楠：必定能于必然水平上解决供需错配的问题，焦点逻辑很简朴，不管是“东数西算”还有是算网协同调理，素质都是用“毗连”把分离的需乞降供应匹配起来，加速生意业务节拍。

以并行科技为例，咱们经由过程算力收集模式已经接入47家智算中央及15家超算中央，并按照用户差别的行业属性及运用场景的差异化，对于一些算力集群举行适量革新，把这部门算力资源与用户的场景及运用特性相匹配，晋升算力中央的使用率。算网不只是“技能调理网”，更是“生意业务调理网”，不克不及只盯着技能参数，还有要帮供应端找到精准需求，这才是解决错配的要害。

雷峰网：并行科技有经由过程革新算力集群，从而提高其算力使用率的详细案例吗？

乔楠：初期咱们对于接过一个供给商，他们把算力集群的计较访存比设计患上尤其小，致使集群只能支撑10%摆布的事情负载，基本处在“闲置”状况。咱们参与后，第一步是加年夜存储及内存配置，调解硬件适配逻辑；第二步是经由过程算网平台筛选适配的用户场景，好比把它对于接给计较压力中等的科研项目。革新后，这个集群的事情负载晋升到60%，并且接入了上千个客户。

雷峰网：并行科技针对于差别场景推出了超算云、智算云、智造云，这么细分的结构是基在甚么判定？

乔楠：以前于英特尔、遐想和HPC厂商做超算的人，厥后都散落于智算这个行业里，业内共鸣是智算就是超等计较的一个细分场景，优化的要领论及设计的要领论都同样，只不外针对于的场景是GPU场景，素质上都于遵照更快、更强的原则。

超算云、智算云、智造云是针对于差别场景的超等计较机云化产物，这是并行科技跟云年夜厂的区分，云年夜厂这几年才最先结构智算，但并行科技从降生的第一天起就于做这个工作，以是并行堆集了许多人材、经验及Know-how，这些堆集可让并行科技于任何底层还有是超等计较机的风口上复用。

雷峰网(公家号：雷峰网)：您提到超算及智算的要领论相通，那是否是可以理解为，有超算经验的团队做智算，会有“降维冲击”的效果？

乔楠：2003到2004年时期，我就于介入优化遐想深腾6800超等计较机，篮球场巨细的装备，几百台装备统共阐扬的算力是4TFlops，此刻一张GPU算力卡就远超这个程度。固然，浮点精度有差异，初期是双浮点，此刻是半精度，差了8倍摆布，但从量级上看，已往是T级，此刻是P级（1PFLOPS=1000TFLOPS），20年里芯片集成度晋升了许多。

从超算到智算，有许多经验确凿能复用，并且效率差距很较着。好比一个从零最先的智算团队，要run up起来至少需要3到5年，而有超算经验的团队，一两个月就能落地。

雷峰网：云营业很看重营收范围，技能收敛以后，怎样面临与年夜厂的竞争？

乔楠：营收范围是乐成的一定因素之一，只要切合马太效应的营业，城市有如许的特征，但这不料味着终极只有一两家公司能胜出。

跟传统的云营业同样，会有许多于细分赛道里存活下来的企业，有混淆云、当局云，并行科技是超算这个细分范畴的第一位，只要可以或许找到一个细分的营业场景，这个营业场景跟云年夜厂有必然的差异化，就可以活患上还有不错，但把这件工作做好也面对比力高的门坎，持久来讲小玩家必然会消散，可是会有一批细分范畴的领头羊活下来。

雷峰网：并行科技打造的“算力买手模式”很受行业存眷，这类模式的焦点是甚么？

乔楠：算力买手模式的素质，是用并行的专业能力帮用户避坑，焦点是从需求出发，1小时内匹配最优算力。

第一步是需求拆解，好比，用户说要跑年夜模子练习/推理，就需要进一步问清晰“模子参数（7B/13B/70B）、练习周期、精度要求、成本预算”，同时把步伐的运用运行特性画出来，是计较密集型，现存带宽密集型，还有是收集通讯密集型？这是第一层阐发。再细睁开，例如，计较密集型又可以拆成对于fp32，fp16，fp8的GPU使用率的出现。咱们把用户的需乞降运用特性一层层列出来，就能够把恍惚需求转化为详细参数，好比“需要16张显存≥40GB的GPU，计较密集型，FP8精度要到达xxpflops浮点峰值，显存带宽与节点内节点间带宽不是重要瓶颈，GPU机头的内存带宽要到达300GB/s，单卡时成本≤2元，等等”。

第二步是资源筛选，并行科技接入了几百家超算、智算中央及算力厂商的资源，会按照用户参数主动筛选，解除不切合的选项。好比用户要单卡时成本≤2元的，就解除溢价高的厂商，末了剩下3-5个候选。

第三步是方案整合，咱们会对于候选资源做二次验证，好比测试某款国产GPU的模子适配度、某智算中央的收集不变性，然后把最优资源整合到并行的算法平台里，给用户提供一站式办事。

雷峰网：算力的高投入象征着许多时辰需要为客户提供定制化办事，这会不会致使公司的职员压力很年夜？

乔楠：根据二八定律，对于年夜客户必定要实施定制化办事。对于在中小客户，并行科技会提供7×24小时的办事，而且是分钟级的相应，工程师险些都是硕士生，这个活还有是很苦很累的。

不外，AI时代咱们也做了一些智能客服去做增补，基在咱们以前堆集的数据以和专家库开发了一套客服体系，包括动静传送以和智能的数据挖掘。今朝，咱们已经经堆集了几百万条技能办事相干的数据，这都是私域数据，练习出来的体系有很高的专业度，此刻基本上办事相应每一年可以或许提效25%。

雷峰网：并行科技的办事也于遵照摩尔定律。

乔楠：对于，我常常跟技能办事的卖力人说，你今天办事了一卡时，你来岁再办事一卡时的含金量就降落了不少，咱们的办事也需要遵照摩尔定律，不停扩展办事的效率。

智算集群迭代标的目的：异构推理存于合理性，优化的结局是买通财产链

雷峰网：此刻开源模子愈来愈多，许多行业也打造了垂直模子，模子数目增长对于AI Infra这一层会有甚么样的影响？

乔楠：必定是功德，开源模子愈来愈多会对于AI架构、AI Infra孕育发生刺激作用。

常识的开放、架构的开放会吸引愈来愈多的人介入进来，底层的系统架构可以或许孕育发生正反馈，就会有愈来愈多做AI Infra的人介入开源模子的优化及互助，形成一个正轮回，这是软硬件两边互相协同开放之下孕育发生的。

早于CPU时代，异构一直是系统架谈判软件层面之间的一个抵牾。英伟达的强盛重要于在CUDA生态，而打造CUDA生态的缘故原由就是传统CPU的编程模子不合适GPU，开发者于GPU长进行开发门坎过高。

开源模子多了以后，Paramon就能够于开源模子上去做很是多机能数据的收罗，使咱们对于差别硬件的理解加深，并鞭策响应的硬件举行革新，让强盛的开源模子有愈来愈多的硬件去匹配，假如行业内都是关闭模子，就很难去鞭策这个事。

雷峰网：国产算力替换让异构集群的观点很火，但有业内子士认为异构集群是一个“事倍功半”的伪命题，您怎样对待这一不雅点？

乔楠：起首异构有许多界说，多个集群异构、单个集群多个节点异构以和节点内部差别的异构，以和单个集群差别芯片的异构。异构集群是具有合理性的，以DeepSeek为例，它有Prefill阶段及Decode阶段，这对于硬件的要求是纷歧样的，一个是计较密集型，一个是显存密集型的，这两个阶段彻底可以拿差别的硬件去匹配，这个就是具有合理性的异构。

许多人认为异构集群有问题，是由于于练习场景里，异构集群是不可立的。练习场景的算法是把一个使命分到差别的计较单位，每一个计较单位及计较节点做不异的使命，并且他们很是紧耦合的互相通信来同步一些进展，于这类前提下，就会呈现木桶短板效应，任何一个节点的机能差城市影响到整个集群的机能，使患上整个集群的机能以最差的节点为单元×整个节点的数目。推理阶段的算法变化使患上异构集群有了可能性，并且有可能会晋升性价比且降低成本。

以是说于将来的多场景下，国产芯片厂商必然要找到一个细分产物，然后成为第一位，比如一些芯片，甚至不是冯诺依曼架构、不因此计较为中央点去设计，而因此显存为中央点去设计，这些可能性都是存于的。

雷峰网：许多人会用MFU（模子算力使用率）评价集群效率，您感觉评价集群效率的焦点指标是甚么？

乔楠：MFU是重要指标，但不是独一指标，影响集群效率的第一因素是使用率，假如集群总体使用率低，那单节点使用效率再高，总体效率还有是差。好比一个集群有100个节点，只用到20个，就算这20个节点MFU到达90%，总体效率也只有18%。

其次，MFU的解读要联合场景，特别是推理场景。好比有的推理集群MFU绝对于值很高，但SLA（办事质量）差，几秒钟才输出一个Token，那MFU再高也没意义，用户要的是“有用输出”。MFU的真正价值是“权衡非计较部件的瓶颈”：MFU越高，申明存储、收集等非计较部件的瓶颈越小，计较部件能更高效运转，以是行业才一直拿MFU作为一个主指标，而这内里实在也藏着许多成长的趋向。

雷峰网：有业内子士认为“最年夜水平地使用计较资源”实在就是算力优化这个门路上终极评价技能优劣的尺度，您怎样对待这个不雅点？

乔楠：使用计较资源很主要，但不是结局，结局是设计，使用是现有的拼凑，最底子的是设计好计较资源，而设计的界说就有许多方面，好比不是设计计较资源，而是设计计较资源收集，单一的结点、单一的集群只是于这个层面上的机能点，可是从全局点来讲，使用率的抵牾年夜在部件的机能，全局算网的级别是高在单节点或者单集群的机能的。

此外，假如结局是使用，那只能于卖场的这个层面，但结局实在是要买通财产链的，就不单单局限在算力部件，甚至是IDC、能源，把财产链的每个点优化到极致。

雷峰网：算力行业于慢慢走出初期泡沫阶段，您对于算力行业将来的成长趋向有如何的研判？

乔楠：做好算力办事的难度长短常年夜的，高投入、高危害，你一旦做欠好，可能就会造成算力资源的错配。此刻硬件飞速成长，摩尔定律于必然水平上依然发生作用，而软件的成长是十倍在摩尔定律的。这就象征着你今天采购的装备，它合适DeepSeek3.0，但DeepSeek4.0出来后，它的运用的热门有可能彻底变了，对于硬件的要求也就变了，前期的硬件投入就可能血本无归。

对于芯片厂商也是同样的，有些硬件年夜厂初期用INT8计较格局，但此刻FP8才是主流，这就会致使厂商鞭策这一部门营业比力艰巨，由于它的正确度遭到了影响。固然此刻也和时推出了FP8，可是业内是否是会酿成FP4呢？也很难判定。

算力是一个周期性的行业，有淡季及旺季，几年供过在求，几年又求过于供。由于素质上这是一个比力滞后，可是出清时间比力长的行业，各人说算力紧张了最先设置装备摆设了，建完一年已往了，以是他是滞后的，可是出清又艰巨，这就致使了周期性，而周期性素质就是错配。

但行业总体是向上成长的，只是有波峰波谷，以是持久是乐不雅的，短时间是疾苦的，此刻是很残暴的，将来也只有少数细分范畴的头部玩家能存活。

专题先容

2023年来，智算财产迎来发作式增加。但两年已往，海内智算企业的保存状况怎样？于技能冲破与场景落地中做了哪些新摸索、又面对甚么新挑战？智算行业的将来还有有甚么想象空间？本专题与一众智算范畴的前锋从业者对于话，回首最近几年智算行业于技能与贸易上的拓展实践过程，并瞻望将来成长标的目的。即便身处行业天气更迭之际，从业者们依附聪明与韧性、怀揣对于智算将来的坚信，斥地多样化成长路径。对于此专题感兴致的从业者，接待添加微信YONGGANLL6662配合介入会商。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

-3377体育-权威体育赛事平台-中国官方网站

3377体育-权威体育赛事平台-中国官方网站- 并行科技COO乔楠：英伟达并非断崖式领先，国产芯片突围需摒弃对「峰值性能」的过度追求丨智算想象力十人谈

推荐资讯