3377体育-权威体育赛事平台-中国官方网站- Graviton两年内为AWS提供超过50%的CPU算力,打破英特尔对市场节奏的掌控
分享
导语:Graviton于必然水平上注释了为何英特尔近来几个季度的财政状态云云糟糕糕。
于超年夜范围及云计较厂商范围较小、Arm未能抢占数据中央市场以和AMD还没有走上中兴之路的时辰,英特尔掌控着新计较引擎进入数据中央的节拍。
场面地步老是于变化。本周,英特尔的CEO帕特.基辛格(Pat Gelsinger)公布去职,比拟之下,亚马逊云科技(AWS)于拉斯维加斯举办年度re:Invent年夜会,线下参会人数到达6万,而线上人数高度40万人。谁于节制超年夜范围企业及云计较制造商的技能推出程序,好像有了新的谜底。
对于在AWS而言,他们也能够节制新技能的发布节拍,由于他们不需要像芯片厂商同样,举行按期的产物迭代。他们不需要像英特尔、AMD及英伟达那样,把计较引擎卖给ODM及OEM,而是直接向客户出售云上产物。显而易见的是,这是一项更易的营业。
于re:Invent年夜会上,AWS以和其母公司亚马逊高管所带来的演讲,让外界对于在他们的计较引擎有了新的期待,好比Graviton五、Inferentia3和Trainium3。

Trainium3利用3nm工艺蚀刻,相较在Trainium2能效提高40%、机能翻倍。AWS的新闻稿中暗示,Trainium3 UltraServers的机能将是Trainium2 UltraServers的4倍,这象征着它们将从利用Trainium2的16台装备扩大到利用Trainium3的32台装备。
AWS CEO马特.加曼(Matt Garman)称,Trainium3将在2025年晚些时辰推出,这象征着年夜概会于re:Invent 2025年集会发布这款产物。早于6月份,就有一些关在AWS高管确认Trainium3将冲破1000瓦的传言,但这点其实不出乎外界的意料,英伟达的Blackwell B200 GPU的峰值功率是1200瓦。
真正出乎外界意料的是,于上个月的SC24超等计较集会上,针对于HPC运用的Graviton4E仍未推出,这与AWS于2021年11月推出的平凡Graviton3及2022年11月推出的加强版Graviton3E的过往速率比拟有所差异。2023年11月发布的Graviton4可以说是市场上基在Arm架构最佳的办事器CPU之一,固然也是合用面最广的CPU。
AWS的CPU、人工智能加快器及DPU没有任何年度更新的压力,假如细心不雅察英伟达及AMD的GPU线路图,就会发明他们的焦点产物仍旧是每一两年发布一次,第二年会于第一年发布的GPU长进行内存进级或者机能调解。
AWS于芯片范畴的迭代周期年夜概是两年,此间会有一些颠簸。Graviton1现实上是一个基在Nitro架构的DPU卡,可以纰漏不计。正如AWS公用事业计较高级副总裁彼患上.德桑蒂斯(Peter DeSantis)于2018年发布的主题演讲中所说的,Graviton1只是“进入市场的一个旌旗灯号”,重要用在验证客户需求。2019年推出的Graviton2, AWS采用了台积电的现代7纳米工艺,并利用了Arm的Ares N1内核,设计了一款64核CPU,与运行于AWS云上的英特尔及AMD的X86 CPU比拟,性价比超出跨越40%。
2021年,采用Arm Zeus V1内核的Graviton3问世,一样是64个内核却可以负担更多的使命。2023年,Graviton4问世了,这款芯片采用了台积电4纳米工艺,于插槽上塞入96个Demeter V2内核,与12个内存带宽为537.6 GB/秒的DDR5内存节制器搭配利用。与Graviton3比拟,Graviton4的单核机能提高了30%,内核数目增长了50%,机能提高了2倍。按照咱们的订价阐发,产物的性价比提高了13%到15%。于现实的基准测试中,Graviton4带来的机能优化有时能到达40%。
AWS处置惩罚器投入的资金至少需要两年才可以收回。是以,于re:Invent年夜会上期待任何干在Graviton5的新动静都是不实际的。只管云云,AWS的高管们还有是会吊一下市场的胃口。
AWS的高管于主题演讲中提供了一些关在Graviton的数据。AWS计较及收集办事副总裁戴夫.布朗(Dave Brown)展示了这张图表,它于必然水平上注释了为何英特尔近来几个季度的财政状态云云糟糕糕。大略地说,AWS的四项焦点办事(Redshift Serverless及Aurora数据库、Kafka的Managed Streaming及ElastiCache搜刮)约莫有一半的处置惩罚是于Graviton上运行的。

布朗称:“近来,咱们到达了一个主要的里程碑,于已往的两年里,咱们数据中央跨越50%的CPU算力都来自Graviton,这比其他所有类型的处置惩罚器加起来还有要多。”
这恰是微软多年前所声称想做成的工作,而这也是AWS所期待告竣的方针。从久远来看,X86是一种传统的平台,其价格也是传统的,就像以前的年夜型计较机及RISC/Unix。RISC-V或许终极也会如许倾覆Arm架构(开源的ISA与可组合的模块好像是必由之路,就像Linux开源体系让Windows Server酿成传统平台的)。
加曼让咱们对于AWS内部的Graviton办事器群范围有了一个年夜致的相识:“Graviton正于疯狂地增加,2019年,整个AWS的营业范围为350亿美元,而此刻,单单Graviton运行的营业范围就与2019年整个AWS营业范围同样,这长短常快的增加。”可以预计的是,Graviton办事器集群的增加速率比AWS总体营业的增加速率还有要快,并且幅度可能很是年夜。这对于英特尔的危险弘远在对于AMD的危险,由于AMD多年来一直拥有比英特尔更好的X86办事器CPU。
Trainium系列,是否会成为英伟达及AMD以外的选择?
加曼评论辩论Trainium3的独一缘故原由是,人工智能练习对于高机能计较的需求增加患上比任何其他计较引擎快患上多。面临英伟达于2025年加年夜其Blackwell B100及B200 GPU的产能,以和AMD扩展其Antares MI300系列,AWS假如想让客户将他们的人工智能事情负载移植到Trainium上,就必需于市场上揭示出鼎力大举奉行Trainium系列的刻意。
于来岁的re:Invent年夜会以前,但愿可以或许看到AWS发布关在Trainium3的一些新优化,由于市场上的竞争敌手太多,以google及微软为首的一些公司将于2025年推出他们旗下的人工智能加快器。
就像Graviton系列同样,从此刻最先,Trainium系列的更新周期也许将变为两年一更新。这些产物的研发投入都很是昂扬,是以AWS要实现财政效益必需将Trainium的开发成本摊销到尽可能多的装备上。与Graviton同样,咱们认为AWS的Trainium告竣这一方针的日子不会太遥远。从久远来看,这对于英伟达及AMD来讲不是功德,尤其是假如google、微软、腾讯、baidu及阿里巴巴都采纳一样的步履。
AWS还有没有愚蠢到试图于GPU加快器市场上与英伟达直面抗衡,但与google的TPU、SambaNova的RDU、Groq 的 GroqChip及Graphcore的IPU同样,这家云计较商一样认为本身可以构建一个体系阵列来举行人工智能练习及推理,并为云计较客户带来差异化体验及附加值产物,与采办英伟达比拟,客户采办AWS的产物可以节省成本而且把握更多的自动权。
正如咱们上面所指出的,AWS高管对于Trainium3并无吐露太多的信息,但他们对于Trainium2于UltraServer中的利用到很是高兴。
本年的re:Invent年夜会上,AWS更多地先容了利用Trainium2加快器的体系架构,并展示了基在这些加快器构建的收集硬件,以扩大及扩大其人工智能集群。下面是德桑蒂斯展示的Trainium2:

正如咱们去年报导的那样,Trainium2好像于单个封装上放置两个芯片互连,可能利用NeuronLink die-to-die内部互连技能,以于其同享的HBM存储器上一致地事情。Trainium2办事器有一个节点,该节点带有一对于主机处置惩罚器并与三个Nitro DPU相连,以下所示:

这是计较节点的俯视图,前端有四个Nitros,后端有两个Trainium2s,采用无线设计以加速部署速率。

两个互换机托架,一个主机托架及八个计较托架构成了一台Trainium2办事器,该办事器利用2TB/秒的NeuronLink电缆将16个Tranium2芯片互连成2D环面配置,每一个装备上96GB的HBM3主内存城市与其他装备同享。每一台Trainium2办事用具有1.5TB的HBM3内存,总内存带宽为46TB/秒(即每一个Trainium2卡略低在3TB/秒)。此节点于密集FP8(一种浮点数暗示格局)数据上的机能为20.8万万亿次浮点运算,于稀少FP8数据上的机能为83.3万万亿次浮点运算。
AWS将四台办事器彼此毗连以搭建Trainium2 UltraServer,该办事器于64个AI加快器中拥有6TB的HBM3内存容量,内存带宽共计为184TB/秒。该办事用具有12.8Tb/秒的以太网带宽,可以使用EFAv3适配器举行互连。UltraServer办事器于密集FP8数据上的运算速率为83.2万万亿次浮点运算,于稀少FP8数据上的运算速率为332.8万万亿次浮点运算。下面是德桑蒂斯对于Trn2 UltraServer实例硬件的展示:

于充满电线的机架顶部,隐蔽着一对于互换机,它们构成了3.2TB/秒的EFAv3以太网收集的端点,该收集将多个Tranium2办事器彼此毗连,以创立UltraServer办事器,并将办事器与外部世界毗连。

这还有不是整个收集架构。假如你想运行年夜范围的基础模子,需要的加快器将远远不止64个。为了将成千上万的加快器毗连于一路,可以举行年夜范围练习,AWS设计了一种基在以太网的收集布局,名为10p10u,其方针是于延迟不到10微秒的环境下,为整个收集提供每一秒数十PB的带宽。下面是10p10u收集布局机架的样子:

因为原先办事器内部的电线很是繁杂,AWS研发了一款光纤骨干电缆,将需要利用的电线数目压缩为原先的十六分之一。其道理是将数百个光纤毗连放于一条较粗的管线中,如许做的利益是让办事器内部的架构更为简便。以下图所示,右侧的机架利用的是光纤骨干电缆,它更简便小巧。更少的毗连及路线治理象征着更少的过错,当你试图快速构建人工智能基础举措措施时,这一点很主要。

据悉,这类专门用在人工智能事情负载的10u10p收集因为其优秀的体现正于被年夜范围采用。德桑蒂斯展示了它与AWS创立的老式以太网收集比拟的增加速率有多快:

假定这是累积链接数(有用的计较),旧的Euclid收集布局(年夜概是100Gb/秒)于四年内逐渐增长到近 150 万个端口。名为One Fabric的收集与10u10p收集于2022年年中年夜致同时推出,咱们预测此中One Fabric利用400Gb/秒以太网,而10u10p基在800Gb/秒以太网。One Fabric有约莫100万个链接,而10u10p有约莫330万个链接。
加曼暗示,与基在AWS云上的GPU实例比拟,Trn2实例的性价比将提高30%到40%。固然,AWS应该加年夜拉开外部计较引擎与自家计较引擎之间的差距,连结如许的差距是Trainium抢占人工智能计较器市场的准确举措。
作为主题演讲的一部门,德桑蒂斯及加曼都谈到了一个代号为“Project Ranier”的超等集群,这是AWS正于为其人工智能年夜模子互助伙伴Anthropic制作的一个超等集群。截至今朝,亚马逊已经向Anthropic投资80亿美元,该集群重要用在练习下一代Claude 4基础模子。加曼说,“Project Ranier”将拥有数十万个Trainium2芯片,其机能将是练习Claude 3模子时所用呆板的5倍。
本文由雷峰网(公家号:雷峰网)编译自:https://www.nextplatform.com/2024/12/03/aws-reaps-the-benefits-of-the-custom-silicon-it-has-sown/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
-3377体育-权威体育赛事平台-中国官方网站