非常出色,不过我们渴望性能更强的图形处理器,两年之后黄仁勋在英伟达的人工智能活动GTC,郑重推出了新一代的芯片架构图形处理器。
英伟达借助生成式AI的快速发展,正通过性能更强的处理器来招徕用户,其全新设计备受期待,运算能力获得显著提升。
媒体于周一指出,作为架构的下一代产品,在性能表现上十分突出,顶级芯片的浮点运算能力(FLOPS)大约提升了五倍,能源消耗也得到改善,同AMD的GPU产品相比具备明显优势,进一步确立了英伟达在性能与能耗方面的领先地位。
效率增强的核心要素是定价策略,每一块图形处理器实质上包含两个芯片单元,采用每秒传输10TB数据的强互连技术相接,让它们可以协同运作,发挥出一个加速单元的整体效能。
另外,每颗处理单元都设有八个八阶叠层HBM3e存储模块,整体存储量能达到192GB,数据传输速率可达到每秒8TB。与H100和H200存在差异,B100和B200在存储单元与图形处理器间的数据通路规格相同。现阶段,该系列涵盖三种规格型号,分别是B100、B200和Grace-(GB200)。
发挥最佳效能并非轻易实现,涉及诸多考量要素。英伟达声称新处理器的运算能力极高,但该数据是在采用新型FP4计算精度及液态冷却设备的环境中测试得出的。若要充分挖掘其能力,采用液体散热几乎势在必行。若将新芯片的FP8表现与上一代H100产品对比,其速度仅增长了大约两倍半。
GB200超级芯片性能强悍
英伟达的顶级GPU被装配在GB200芯片上,类似Grace芯片,Grace芯片将现成的72核Grace处理器与GPU,通过C2C连接技术融合在了一起。
然而,与独立单元不同,GB200装配了两个加速设备,因此其运算能力得以提升,同时配备了384GB容量的HBM3e存储器。
之前的GH200被标明耗电量为1000W,其中GPU部分为700W,Arm CPU部分为300W。据此推断,GB200在满载情况下,其功耗或许能达到2700W,该数值包含了两个GPU,每个1200W,以及与GH200相同的Arm CPU。考虑到这一功耗水平,英伟达选择使用液冷散热也就不令人感到意外了。
移除体积庞大的散热装置,转而部署数片散热板,英伟达得以将这两个处理器紧密集成在1U机箱之中,此机箱可提供高达8000亿亿次浮点运算的处理能力,或者以FP8运算模式实现4000亿亿次浮点运算。
这款新型双GB200系统,在运算能力上,超越了过去8U 10.2kW DGX H100系统——性能提升达四倍,并且占用面积缩小至原来的八分之一。
新一代连接方案使性能大幅提升
GB200是NVL72机架式AI系统的关键组成部分,NVL72机架式系统通过交换装置将36台GB200组合成一个整体。该系统致力于承载海量训练和推理工作,能够应对规模达两千七百亿参数的大型语言模型运算需求。
依据英伟达披露的信息,该系统在训练环节表现出色,以FP8标准运行时性能表现优异。就推理任务而言,其运算水平可媲美FP4规格下的处理能力。不仅如此,八套NVL72设备能够彼此连接,构建出规模宏大的DGX BG200集群系统。
每个机架配置了18个单元,包含32块Grace GPU和72个加速设备。这些单元之间借助九个交换设备互联,能够像单一拥有13.5TB HBM3e内存的GPU单元那样协同运作。
这基本上就是之前DGX系统所用的那种技术,能让八个GPU表现得像一张卡那样。不一样的地方在于,借助专用设备,可以支持更多的GPU。新一代产品为每个GPU配备了1.8TB/s的双向带宽,能够支持多达576个GPU之间顺畅高速地进行通信。
散热需求激增,液冷或成必备
英伟达的最新产品并非规定必须采用液体散热方式,不过,若要充分发挥英伟达顶级处理器的性能,采用液体冷却则几乎成为必要选择。
B100、B200 以及 GB200 这几款产品的核心差异体现在输出能量和运行效率上。根据英伟达披露的信息,它们的耗能区间通常在 700W 到 1200W 之间波动,具体数值会受到型号规格和散热手段的制约。
芯片的运作表现会随工作能量等级而变化。英伟达表示,配备风冷系统的HGX B100 设备,其单GPU能达到的效能,其能耗则与H100 产品持平。这表明,倘若数据中心已具备运行英伟达DGX H100 系统的能力,那么增设B100 节点应当不会产生阻碍。
B200更受瞩目,采用空气冷却的HGX或DGX布局时,单个GPU能实现的算力,伴随的能耗为一千瓦。英伟达指出,DGX B200机柜配置八块卡的总耗电为14.3kW球迷网,这表明在机架的供电与散热需求上,需要额外准备约60kW的容量。
针对专为人工智能集群构建的新型数据中心而言,不存在此类顾虑;然而,对于已建成的设施,所面临的困难或许更为显著。
AI计算核心的潜能释放,基本依托于液体散热方案,此乃行业发展的必然选择。芯片满负荷运转时,其热量排放量可高达1200瓦,且性能表现随之提升。
与竞品相比,仍具优势
英伟达目前确实在AI基础设备领域占据领先地位,不过这并不意味着它是唯一的竞争者,实力雄厚的英特尔和AMD也在积极布局,推出了Gaudi以及相关加速设备,同时云服务提供商们纷纷研发专属芯片以增强自身竞争力,另外像Samba Nova这样的AI初创企业同样在市场中占据着重要的位置。
以AMD去年12月推出的 GPU相比,仍具备优势:
采用尖端封装方案,把八个CDNA 3运算模块向上叠放在四个 I/O 芯片上面,这些芯片负责GPU相互之间以及与存储设备实现快速数据交换。
性能表现上,FP8 浮点运算能力比同类产品强30%,面对以H100为核心的高性能计算集群执行双精度任务时,其效率几乎能达到对手的2.5倍。若将功耗为750W的英伟达芯片同700W的B100进行比较,前者的运算速度明显快了2.67倍。
另外,这两种处理器目前都配备了192GB的超高速内存,单个部件的读写速率提升了2.8TB每秒,内存传输容量被证实是人工智能运算表现的重要参考,特别是在数据处理环节,比如英伟达的H200可以看作是H100的升级版,它主要强化了数据流通能力,虽然计算能力单位相同,但英伟达指出H200在处理Meta公司70B参数规模模型时,效率能达到H100的两倍水平