当前位置:  > 篮球新闻
nebula nbl-b200 英伟达官宣新一代架构,1.8万亿参数秘密被眼尖网友发现?
作者: 球迷网 | 发布时间: 2025年10月17日 14:46

梦晨 克雷西 发自 凹非寺

量子位 | 公众号

圈内所有人都关心的那个谜团,似乎在老黄演示文稿某页的细微字句中被揭晓了

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

两年之后,英伟达公布最新一代处理器设计,使得人工智能的运算速度提升了三十倍。这一技术被明确视为推动“全新工业变革的核心动力”。

老黄展示了PPT, 其中包含了1.8万亿参数的MoE GPT系列大模型测试数据, 目的是为了证明这一点。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

眼尖的网友当场就盯上了这行不起眼的小字,截图发出神秘暗号。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

这个模型的参数数量高达18万亿次,采用了MoE结构,和第一代GPT-4的内部消息所述内容完全一致,就连32k的输入序列限制也完全吻合。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

英伟达一位新任研究主管Jim Fan,毫不掩饰自己的观点。

说明摩尔定律已无法束缚英伟达的发展,并且直接揭开了这个秘密。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

这件事之所以能以这种方式非正式公开,或许表明在当事人眼中已经不再重要。

相当一部分人认为,经过多次改进,新版gpt-4-turbo的体积已经缩小了许多。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

谈及英伟达GTC大会,这一年是架构变革的关键时期,黄仁勋的主旨发言内容丰富,精彩之处不少:

宣布GPU新核弹B200,超级芯片GB200

架构新服务器,一个机柜顶一个超算

推出AI推理微服务NIM,要做世界AI的入口

新光刻技术进驻台积电,改进产能。

……

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

8年时间,AI算力已增长1000倍。

老黄断言“加速计算到达了临界点,通用计算已经过时了”。

我们得另寻计算途径,以便实现持续拓展,以便达成持续削减开销,以便完成日益繁重的计算任务。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

老黄近期进行了一次主题演讲,内容聚焦于AI领域的重大转变,其演讲题目被命名为《见证AI的变革时刻》,然而,实际上,英伟达才是引发这场变革的关键力量,这一点不得不承认。

GPU的形态已彻底改变

我们亟需更强大的图形处理器,倘若无法升级,便需将更多处理器单元整合,构建出规模更为宏大的虚拟图形处理器。

新架构硬件产品线都围绕这一句话展开。

借助半导体核心,以及它们彼此间的通讯方式,逐层建立起庞大的智能计算网络。

四纳米工艺遇到瓶颈时,就将两块芯片拼接起来,通过每秒十TB的完整数据通道连接,构成B200图形处理器,整体集成了两千零八十亿个晶体管。

内存也直接翻倍,高达192GB的HBM3e高速内存。

确实如此,B100型号没有被采用,新平台推出的首款图形处理器是B200。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

两枚B200 GPU和Grace CPU组合后形成GB200超级芯片,采用900GB/s的超低能耗芯片互联方案实现连接。

两个超级芯片装到主板上,成为一个计算节点。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

这十八个计算单元合计拥有三十六颗中央处理器和七十二块图形处理器,它们组合成了一个规模庞大的“虚拟图形处理器”。

它们通过今天公布的 -X800 和™-X800以太网平台相连,能够支持高达800Gb/s的传输速率。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

在多方援助下,它最终发展成为“最新型运算核心”GB200 NVL72。

这种类型的“计算单元”机柜,FP8精度的训练能力非常强,几乎可以和H100时代一个DGX 超级计算机集群(1000 )相媲美。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

与72块H100相仿的配置下,GB200 NVL72在大模型推理方面的表现,比前者强了三十倍,在费用和能耗消耗上,则减少了二十五倍。

将GB200 NVL72当作一个独立的GPU来运用,它拥有强大的AI推理运算能力,并且配备了30TB级别的快速存储空间。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

再用 交换机连接,配合散热系统组成新一代DGX 集群。

DGX GB200 运用了创新的高效液冷机箱布局形式,基础配置能在FP4标准下实现11.5 的计算能力,并配备240TB的高速存储空间。

此外还支持增加额外的机架扩展性能。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

最终成为包含32000 GPU的分布式超算集群。

老黄明确表示,英伟达DGX AI超级计算机,堪称AI产业变革的核心设施。

将提供极度的规模,极高的稳定性,具备智能化的管理,拥有完整的弹性,能够保障持续的运行。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

老黄讲话时特别提了一下2016年送的DGX-1,那可是头一回把8块GPU拼成一个超级计算机,那时候性能才0.17。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

从那时起,训练最先进模型所需的计算能力,每过半载就会增长一倍,这种势头持续不断。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

GPU新核弹GB200

早些时候,培养一个拥有1.8万亿参数的MoE架构GPT模型,耗时九十天,需要八千台架构GPU,消耗十五兆瓦电力。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

现在,还是90天期限,架构层面仅需2000个GPU,并且能耗降低到四分之一。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

GB200在1750亿参数的GPT-3测试里,结果比H100好很多,达到了它的七倍水平,同时它提供的训练能力也是H100的四倍。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

架构除了芯片本身外,还包含多项重大革新:

第二代引擎

动态为神经网络中的每个神经元启用FP6和FP4精度支持。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

第五代高速互联

每个GPU都配备了1.8TB每秒的双向数据传输能力,以此保障高达576个GPU之间能够顺畅且高速地进行信息交流。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

Ras (可靠性、可用性和可维护性引擎)

基于AI的预防性维护来运行诊断和预测可靠性问题。

AI

高端的加密运算技术,能够确保AI模型与用户资料的安全,且不会降低运作效率,这对医疗领域和金融行业这类注重隐私的行业来说,具有极其重要的意义。

专用解压缩引擎

优化最前沿的规格,提升数据仓库检索效率,致力于实现数据洞察与数据挖掘领域的卓越表现。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

借助这些技术,单个GB200 NVL72能够容纳高达27万亿个参数的模型,其规模非常庞大。

如果初版GPT-4的参数数量确实达到1点8百亿亿个,那么一台GB200 NVL72设备可以同时处理十五个GPT-4模型。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

英伟达要做世界AI的入口

老黄官宣页面,要做世界AI的入口。

任何人都可以通过易于使用的用户界面体验各种AI模型和应用。

此外,公司借助这些工具在自己的系统上开发并安装专属软件,并且能够完全拥有和控制其知识产权。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

这些应用得益于英伟达最新推出的AI推理微服务NIM,该服务能够对英伟达与众多合作伙伴提供的数十种AI模型进行推理优化。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

英伟达的自研开发平台、软件资源及配套工具均可通过 CUDA-X™微服务加以利用,这些资源支持多种功能应用,例如信息检索增强生成、安全防护机制、数据整理工作以及高性能计算任务。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

例如借助这些小型服务,能够便捷打造依托于大型模型和向量档案的系统,亦可开发智能体Agent软件。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

NIM微服务计费方式十分清晰,按单个GPU每小时一美元计算,或者选择年付享受半价优惠,单个GPU的年费用为四千五百美元。

从今往后,英伟达NIM和CUDA充当了关键桥梁,沟通了成千上万程序员和数以亿计的图形处理器单元。

什么概念?

老黄展示了AI领域的顶尖社交圈,亚马逊、迪士尼、三星等知名公司,全都与英伟达建立了合作关系。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

最终归纳一下球迷网,英伟达2024年的方针更侧重于人工智能,而且其产品更加精准。

比如第五代还特意为MoE架构大模型优化通讯瓶颈。

最新的处理器和配套的软件支持,持续着重计算推理性能,旨在拓展人工智能系统实施的业务范围。

当然作为算力之王,AI并不是英伟达的全部。

此次会议还特别宣布了与苹果在专业领域的合作,使开发者在产业虚拟世界中开展空间运算。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

最新研发的光刻软件体系获得了进一步突破,已被台积电与新思科技选用,开始向更上游的集成电路生产商拓展业务。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

当然也少不了生物医疗、工业元宇宙、机器人汽车的新成果。

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果_nebula nbl-b200

以及确定后续计算革新的尖端方向,英伟达发布云端量子计算仿真服务,使世界各地的研究人员都能有效运用量子计算技术,将他们的构想转化为现实。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

One More Thing

去年GTC峰会期间,黄仁勋和首席科学家伊利亚的亲切交流,至今仍引发广泛讨论。

当时世界还没完全从的震撼中清醒过来,是整个行业绝对的主角。

现在Ilya的下落成谜,昔日掌控市场的地位也出现不稳,关键时刻,能够和老黄进行对话的人选增加到了八个

八子,是开创性文章《一切皆有可能》的八位创作者。

他们全都离开了谷歌,其中一人去了别处,其余七个则投身于人工智能创业,涉及模型开发与应用,既有面向企业的也有面向个人的。

这八位杰出人物既昭示着大模型技术真正的发端,又映照着当下繁荣发展的AI产业风貌。在这个局面里,他们只是众多参与者中的一个。

而就在两天后,老黄将把他们聚齐,在自己的主场。

nebula nbl-b200_英伟达Blackwell架构 1.8万亿参数MoE GPT系列大模型测试结果

就AI领域而言,其影响力与号召力而言,此时此刻,即便是“钢铁侠”马斯克和“奥特曼”Sam,或许也难以与眼前的这位“皮衣客”黄仁勋相比。

……

最后,再来欣赏一段英伟达为架构制作的精彩动画短片。

直播回放:

— 完 —

标签nebulanbl-b200