2026-04-22 20:30:04

今年会·(jinnianhui)金字招牌诚信至上-Gold Annual Meeting- 国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

导语：4月20日，海内全栈自研AI推理GPU企业曦望（Sunrise）公布完成新一轮超10亿元人平易近币融资。

4月20日，海内全栈自研AI推理GPU企业曦望（Sunrise）公布完成新一轮超10亿元人平易近币融资。这是2026年AI财产周全迈入“推理落地、智能体普和”时代后，海内GPU赛道降生的最年夜单笔融资之一。至此，分拆自力仅一年多的曦望已经累计完成七轮融资，总融资额约40亿元，成为海内首家估值超百亿的纯推理GPU独角兽。

本轮融资资金将重要用在新一代S3推理GPU的范围化量产交付、全栈软件生态设置装备摆设，以和S4/S5后续芯片的研发迭代。

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

智能体元年，推理算力成最年夜财产瓶颈

2026年被行业公认为“AI智能体元年”。跟着年夜模子从“会谈天”进化为“会思索、会履行”的数字员工，推理需求迎来发作式增加。英伟达GTC 2026年夜会正式宣告AI财产周全迈入“推理落地、智能体普和”的新时代，将“每一瓦Token吞吐量”界说为AI时代的焦点竞争力。这与曦望自创建之初就锁定的焦点疆场高度契合。

“AI 算力基建的重心已经完全切换。”曦望董事长徐冰暗示，“2026 年 AI 推理计较需求将到达练习需求的 4-5 倍，推理算力租赁价格半年涨幅近 40%。”

差别在行业主流的"训推一体"线路，曦望从建立第一天起就坚定All-in推理赛道，以用户真正的Token成本、单元能耗及办事不变性为芯片设计焦点。今朝公司已经推进三代推理GPU迭代、数万颗GPU量产落地，实现了从芯片研发、产物量产到解决方案交付的完备闭环，并连结“芯片均实现一次性流片乐成、流片后机能切合设计预期”的行业一流尺度。

启望S3：为Agentic AI重构的推理原生架构

2026年1月，曦望正式发布新一代旗舰产物启望S3推理GPU。这是海内首款搭载LPDDR6且兼容LPDDR5X内存的推理GPU，它没有盲目照搬高端练习GPU的HBM显存线路，而是基在Agent推理的素质需求，从AI Core计较架构到内存IO体系举行了全链路重构。

以OpenClaw为代表的智能体推理，“感知—计划—履行—反馈”高频轮回，带来了对于KV-cache密集拜候的全新计较负载。而通用GPU面向练习优化，推理现实算力使用率往往远低在峰值——推理侧的效率瓶颈已经再也不是“算力不敷”，而是“算力用不满”。

这恰是S3所押注的布局性时机：抛却练习能力，专为年夜模子推理做原生深度定制。经由过程裁剪练习态所需的模块，将节省出的晶体管与功耗预算集中投向推理，让单元面积有用算力效率晋升5倍以上。

计较层：专为推理而生的AI Core架构进级

S3经由过程计较层的深度定制，解决了通用GPU“算力用不满”的焦点痛点，推理机能较上一代S2晋升5倍，方针实现Token成本降落90%。

1.迫近物理极限的算子使用率

年夜语言模子推理中，GEMM与Attention算子占共计算量的90%以上，但受限在通用架构的设计约束，这两项焦点算子的现实使用率凡是远低在理论峰值。S3将这GEMM及Flash Attention两项焦点算子的使用率别离推至约99%与98%，标称算力险些都转化为有用吞吐，一样硬件投入可办事更多并发哀求。

2.Agent原生的指令集与微架构

采用128-bit指令集+撑持3D指令，指令密度领先传统SIMT架构；自力线程调理精准匹配智能体繁杂节制流，消弭前提跳转带来的流水线价钱；经由过程Block cluster及Broadcast等技能实现片上数据复用，削减对于外带宽依靠，年夜幅晋升Agent多轮推理效率。

3.FP4全链路低精度，吞吐3-4倍跃升

原生撑持FP16至FP4全链路低精度运算，于DeepSeek V3/R1等主流模子上实现靠近无损的FP4推理，吞吐量较FP16晋升3-4倍，直接转化为客户侧的毛利空间及价格弹性。

国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

体系层：三年夜接口技能破解智能体焦点瓶颈

S3立异性地集成为了三年夜进步前辈高速接口技能，从内存及IO两个推理时代最焦点的瓶颈入手，解决了智能体三年夜焦点瓶颈。

1.LPDDR6内存接口技能，解决智能体的“显存存亡线”问题

年夜模子推理的一个焦点特性是，于高并发、长上下文的主流云端推理场景中，KV Cache 的显存占比可跨越 80%，且随并发用户数线性增加。S3 采用的 LPDDR6 方案，于提供充足推理带宽的同时，将显存容量上限年夜幅提高，且功耗降低50%，匹配推理场景“年夜容量、高性价比、低功耗”的焦点需求。同时，LPDDR6 与 LPDDR5x 兼容的设计，让 S3 可以推出差别显存规格的产物版本，笼罩从边沿到云真个各种推理场景，无需从头设计芯片。

2.高速SerDes+SUE交融互联技能，解决智能体的“多模子协同瓶颈”

曦望践行“软件界说互联”的设计思绪，对于推理场景下的互联架构举行了深度优化。从超节点和谈、片上互联、片间互联、互换装备、高速通讯软件栈协同设计，实现TCO 与机能统筹的推理互接洽统。

Agent 时代的到来，对于推理集群的互联机能提出了史无前例的要求——一个 Agent 哀求会触发数十次推理挪用，触及多模子协同与海量 KV Cache 流转，假如互联带宽不足、和谈割裂、延迟过高，整个体系的机能会呈现超线性降落，集群范围越年夜，机能丧失越严峻。

S3 立异性地于片上原生交融了 Scale-Up 超节点与 Scale-Out 的双模互联底座。于超节点通讯域，S3 搭载基在以太网的超节点互联引擎，撑持 load/store 内存语义与 UVA 同一编址，肆意两卡间一跳直达，为 AllReduce/AlltoAll 等调集通讯提供硬件级加快；S3 选择基在以太网的超节点方案，具有两重上风：既可利旧复用尺度以太网互换机节省组网成本，又可无缝接入撑持超低延迟能力的加强型互换机，将端到端延迟压缩至百纳秒级，机能迫近专有互联和谈。基在超节点及DeepEP实现的MoE超年夜模子推理体系，可以很年夜水平袒护LPDDR相较在HBM的带宽劣势。别的，S3 于片上集成为了 RDMA 通讯引擎，专为 PD 分散架构下的超长上下文 KV Cache 传输举行优化，实现跨节点 KV Cache 的零拷贝、高吞吐传输，冲破分散式架构的内存墙瓶颈。于组网上 S3 撑持 32/64/128/256 弹性扩大能力，为差别算力密度的推理场景提供矫捷选择。

3.PCIe Gen6接口技能，解决智能体的“资源碎片化”问题

云原生推理时代，超长上下文已经成为年夜模子标配能力，千亿参数模子于处置惩罚数万 Token 序列时，单哀求 KV Cache 占用可达数百 GB 甚至 TB 级，传统 PCIe 带宽瓶颈成为制约 KV Cache 高效治理的极重繁重镣铐。S3 搭载的 PCIe Gen6 接口，带宽较 Gen5 翻倍，可同时满载多路高速网卡与 NVMe 存储集群，满意云原生推理的高并发数据吞吐需求；经由过程 PCIe Gen6的高带宽让CPU DRAM 真正成为 S3 显存的扩大池。可构建起显存-DRAM-NVMe 三层异构 KV Cache 架构：热数据驻留显存包管低延迟的拜候，温数据经由过程 PCIe Gen6 扩大至 CPU DRAM实现容量倍增，冷数据则下沉至 NVMe SSD 长期化存储，解决智能体的资源碎片化问题。

“推理原生”带来普惠算力基础举措措施

从财产周期看，练习侧格式已经相对于固化，而推理侧正随Agentic AI放量进入指数级增加通道——多家机构猜测，将来五年推理算力市场范围将逾越练习侧数倍，此中Agent类负载将孝敬最重要的增量。

曦望S3同时具有三个难以共存的要素：推理原生的架构前瞻性、实现98–99%算子使用率的顶尖工程能力、以和完备的生态适配能力。

“S3不是简朴的机能进级，而是一次对于AI推理成本曲线的重构。”徐冰暗示，“咱们的方针是将推理成本降至‘百万Token一分钱’，让AI像水电同样成为普惠基础举措措施。”

本钱助力推理赛道进入加快期

本轮融资由多家财产方战投、处所国资和头部财政机构配合介入。

杭州本钱暗示：“本次投资是杭州本钱紧扣杭州‘296X’进步前辈制造业集群设置装备摆设战略、深耕人工智能万亿级财产赛道的主要结构。曦望‘All-in 推理’的战略选择具有行业前瞻性，其于技能立异及产物贸易化方面的能力，是咱们决议投资的主要缘故原由。作为持久本钱，咱们更注重企业于要害技能标的目的上的连续投入与落地能力。”

普华本钱暗示，“曦望是海内少数真正理解推理场景、并能提供全栈自立可控解决方案的企业。咱们看好公司'不做训推一体追随者，只做推理赛道领跑者'的战略选择。”

堆积顶尖人材，打造中国AI工业化算力底座

曦望团队范围已经增加至400人，研发职员占比超80%，会聚了来自英伟达、AMD、华为海思等海内外顶尖芯片企业的焦点人材，硕士和以上学历占比超80%。团队交融了芯片设计、高机能计较、AI 算法、软硬产物的跨行业人材。

2026年，曦望将缭绕“落地、兑现、增加”焦点原则，全力推进S3芯片量产交付，完成与海内外主流年夜模子、多模态模子及Agent框架的周全适配。同时，公司已经完成S4高机能推理GPU及S5安全可控推理GPU的技能线路计划，连续加码近存计较、光电共封等前沿技能摸索。

将来，曦望将继承苦守“让AI推理自制、不变、随处可用”的焦点方针，为中国AI成长锻造坚实的算力底座。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-今年会·(jinnianhui)金字招牌诚信至上-Gold Annual Meeting

今年会·(jinnianhui)金字招牌诚信至上-Gold Annual Meeting- 国内推理 GPU 独角兽曦望再获超 10 亿元融资，重构 AI 推理

推荐资讯