今年会·(jinnianhui)金字招牌诚信至上-Gold Annual Meeting- 国内推理 GPU 独角兽曦望再获超 10 亿元融资,重构 AI 推理
分享
导语:4月20日,海内全栈自研AI推理GPU企业曦望(Sunrise)公布完成新一轮超10亿元人平易近币融资。
4月20日,海内全栈自研AI推理GPU企业曦望(Sunrise)公布完成新一轮超10亿元人平易近币融资。这是2026年AI财产周全迈入“推理落地、智能体普和”时代后,海内GPU赛道降生的最年夜单笔融资之一。至此,分拆自力仅一年多的曦望已经累计完成七轮融资,总融资额约40亿元,成为海内首家估值超百亿的纯推理GPU独角兽。
本轮融资资金将重要用在新一代S3推理GPU的范围化量产交付、全栈软件生态设置装备摆设,以和S4/S5后续芯片的研发迭代。

智能体元年,推理算力成最年夜财产瓶颈
2026年被行业公认为“AI智能体元年”。跟着年夜模子从“会谈天”进化为“会思索、会履行”的数字员工,推理需求迎来发作式增加。英伟达GTC 2026年夜会正式宣告AI财产周全迈入“推理落地、智能体普和”的新时代,将“每一瓦Token吞吐量”界说为AI时代的焦点竞争力。这与曦望自创建之初就锁定的焦点疆场高度契合。
“AI 算力基建的重心已经完全切换。”曦望董事长徐冰暗示,“2026 年 AI 推理计较需求将到达练习需求的 4-5 倍,推理算力租赁价格半年涨幅近 40%。”
差别在行业主流的"训推一体"线路,曦望从建立第一天起就坚定All-in推理赛道,以用户真正的Token成本、单元能耗及办事不变性为芯片设计焦点。今朝公司已经推进三代推理GPU迭代、数万颗GPU量产落地,实现了从芯片研发、产物量产到解决方案交付的完备闭环,并连结“芯片均实现一次性流片乐成、流片后机能切合设计预期”的行业一流尺度。
启望S3:为Agentic AI重构的推理原生架构
2026年1月,曦望正式发布新一代旗舰产物启望S3推理GPU。这是海内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU,它没有盲目照搬高端练习GPU的HBM显存线路,而是基在Agent推理的素质需求,从AI Core计较架构到内存IO体系举行了全链路重构。
以OpenClaw为代表的智能体推理,“感知—计划—履行—反馈”高频轮回,带来了对于KV-cache密集拜候的全新计较负载。而通用GPU面向练习优化,推理现实算力使用率往往远低在峰值——推理侧的效率瓶颈已经再也不是“算力不敷”,而是“算力用不满”。
这恰是S3所押注的布局性时机:抛却练习能力,专为年夜模子推理做原生深度定制。经由过程裁剪练习态所需的模块,将节省出的晶体管与功耗预算集中投向推理,让单元面积有用算力效率晋升5倍以上。
计较层:专为推理而生的AI Core架构进级
S3经由过程计较层的深度定制,解决了通用GPU“算力用不满”的焦点痛点,推理机能较上一代S2晋升5倍,方针实现Token成本降落90%。
1.迫近物理极限的算子使用率
年夜语言模子推理中,GEMM与Attention算子占共计算量的90%以上,但受限在通用架构的设计约束,这两项焦点算子的现实使用率凡是远低在理论峰值。S3将这GEMM及Flash Attention两项焦点算子的使用率别离推至约99%与98%,标称算力险些都转化为有用吞吐,一样硬件投入可办事更多并发哀求。
2.Agent原生的指令集与微架构
采用128-bit指令集+撑持3D指令,指令密度领先传统SIMT架构;自力线程调理精准匹配智能体繁杂节制流,消弭前提跳转带来的流水线价钱;经由过程Block cluster及Broadcast等技能实现片上数据复用,削减对于外带宽依靠,年夜幅晋升Agent多轮推理效率。
3.FP4全链路低精度,吞吐3-4倍跃升
原生撑持FP16至FP4全链路低精度运算,于DeepSeek V3/R1等主流模子上实现靠近无损的FP4推理,吞吐量较FP16晋升3-4倍,直接转化为客户侧的毛利空间及价格弹性。

体系层:三年夜接口技能破解智能体焦点瓶颈
S3立异性地集成为了三年夜进步前辈高速接口技能,从内存及IO两个推理时代最焦点的瓶颈入手,解决了智能体三年夜焦点瓶颈。
1.LPDDR6内存接口技能,解决智能体的“显存存亡线”问题
年夜模子推理的一个焦点特性是,于高并发、长上下文的主流云端推理场景中,KV Cache 的显存占比可跨越 80%,且随并发用户数线性增加。S3 采用的 LPDDR6 方案,于提供充足推理带宽的同时,将显存容量上限年夜幅提高,且功耗降低50%,匹配推理场景“年夜容量、高性价比、低功耗”的焦点需求。同时,LPDDR6 与 LPDDR5x 兼容的设计,让 S3 可以推出差别显存规格的产物版本,笼罩从边沿到云真个各种推理场景,无需从头设计芯片。
2.高速SerDes+SUE交融互联技能,解决智能体的“多模子协同瓶颈”
曦望践行“软件界说互联”的设计思绪,对于推理场景下的互联架构举行了深度优化。从超节点和谈、片上互联、片间互联、互换装备、高速通讯软件栈协同设计,实现TCO 与机能统筹的推理互接洽统。
Agent 时代的到来,对于推理集群的互联机能提出了史无前例的要求——一个 Agent 哀求会触发数十次推理挪用,触及多模子协同与海量 KV Cache 流转,假如互联带宽不足、和谈割裂、延迟过高,整个体系的机能会呈现超线性降落,集群范围越年夜,机能丧失越严峻。
S3 立异性地于片上原生交融了 Scale-Up 超节点与 Scale-Out 的双模互联底座。于超节点通讯域,S3 搭载基在以太网的超节点互联引擎,撑持 load/store 内存语义与 UVA 同一编址,肆意两卡间一跳直达,为 AllReduce/AlltoAll 等调集通讯提供硬件级加快;S3 选择基在以太网的超节点方案,具有两重上风:既可利旧复用尺度以太网互换机节省组网成本,又可无缝接入撑持超低延迟能力的加强型互换机,将端到端延迟压缩至百纳秒级,机能迫近专有互联和谈。基在超节点及DeepEP实现的MoE超年夜模子推理体系,可以很年夜水平袒护LPDDR相较在HBM的带宽劣势。别的,S3 于片上集成为了 RDMA 通讯引擎,专为 PD 分散架构下的超长上下文 KV Cache 传输举行优化,实现跨节点 KV Cache 的零拷贝、高吞吐传输,冲破分散式架构的内存墙瓶颈。于组网上 S3 撑持 32/64/128/256 弹性扩大能力,为差别算力密度的推理场景提供矫捷选择。
3.PCIe Gen6接口技能,解决智能体的“资源碎片化”问题
云原生推理时代,超长上下文已经成为年夜模子标配能力,千亿参数模子于处置惩罚数万 Token 序列时,单哀求 KV Cache 占用可达数百 GB 甚至 TB 级,传统 PCIe 带宽瓶颈成为制约 KV Cache 高效治理的极重繁重镣铐。S3 搭载的 PCIe Gen6 接口,带宽较 Gen5 翻倍,可同时满载多路高速网卡与 NVMe 存储集群,满意云原生推理的高并发数据吞吐需求;经由过程 PCIe Gen6的高带宽让CPU DRAM 真正成为 S3 显存的扩大池。可构建起显存-DRAM-NVMe 三层异构 KV Cache 架构:热数据驻留显存包管低延迟的拜候,温数据经由过程 PCIe Gen6 扩大至 CPU DRAM实现容量倍增,冷数据则下沉至 NVMe SSD 长期化存储,解决智能体的资源碎片化问题。
“推理原生”带来普惠算力基础举措措施
从财产周期看,练习侧格式已经相对于固化,而推理侧正随Agentic AI放量进入指数级增加通道——多家机构猜测,将来五年推理算力市场范围将逾越练习侧数倍,此中Agent类负载将孝敬最重要的增量。
曦望S3同时具有三个难以共存的要素:推理原生的架构前瞻性、实现98–99%算子使用率的顶尖工程能力、以和完备的生态适配能力。
“S3不是简朴的机能进级,而是一次对于AI推理成本曲线的重构。”徐冰暗示,“咱们的方针是将推理成本降至‘百万Token一分钱’,让AI像水电同样成为普惠基础举措措施。”
本钱助力推理赛道进入加快期
本轮融资由多家财产方战投、处所国资和头部财政机构配合介入。
杭州本钱暗示:“本次投资是杭州本钱紧扣杭州‘296X’进步前辈制造业集群设置装备摆设战略、深耕人工智能万亿级财产赛道的主要结构。曦望‘All-in 推理’的战略选择具有行业前瞻性,其于技能立异及产物贸易化方面的能力,是咱们决议投资的主要缘故原由。作为持久本钱,咱们更注重企业于要害技能标的目的上的连续投入与落地能力。”
普华本钱暗示,“曦望是海内少数真正理解推理场景、并能提供全栈自立可控解决方案的企业。咱们看好公司'不做训推一体追随者,只做推理赛道领跑者'的战略选择。”
堆积顶尖人材,打造中国AI工业化算力底座
曦望团队范围已经增加至400人,研发职员占比超80%,会聚了来自英伟达、AMD、华为海思等海内外顶尖芯片企业的焦点人材,硕士和以上学历占比超80%。团队交融了芯片设计、高机能计较、AI 算法、软硬产物的跨行业人材。
2026年,曦望将缭绕“落地、兑现、增加”焦点原则,全力推进S3芯片量产交付,完成与海内外主流年夜模子、多模态模子及Agent框架的周全适配。同时,公司已经完成S4高机能推理GPU及S5安全可控推理GPU的技能线路计划,连续加码近存计较、光电共封等前沿技能摸索。
将来,曦望将继承苦守“让AI推理自制、不变、随处可用”的焦点方针,为中国AI成长锻造坚实的算力底座。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
-今年会·(jinnianhui)金字招牌诚信至上-Gold Annual Meeting