3月19日凌晨,依据北京时间,英伟达GTC(GPU技术大会)进行中,英伟达首席执行官黄仁勋宣布了架构芯片的新型号——架构的B200芯片。当前,英伟达架构的芯片H100和GH200 Grace超级芯片应用广泛,为全球众多顶尖超级计算中心贡献计算能力,而B200将带来计算能力的再次重大提升。
B200芯片并非传统单GPU设计,而是由两颗紧密关联的芯片构成,尽管有观点称它们协同工作如同一个CUDA GPU。这两颗芯片借助10 TB/s NV-HBI高带宽接口互联,保障它们能像单一完整芯片那样高效运作。
多卡联合运用是B200算力增强的核心要素。把两个 GPU 和单个 Grace CPU 组合起来的 GB200 能够为大型语言模型的推演任务提供极强效能,并且可能显著提升运作效率。英伟达指出,对比 H100,B200能让生成式人工智能的算力开销和能源消耗减少最高达25倍。
英伟达人工智能处理器在运算能力方面的进步主要源于数据精度的提高,从最初的FP64、FP32、FP16、FP8,到现在B200芯片采用的FP4,其最大理论运算能力达到了20,这是以数据精度为计量单位的结果。FP4的运算效能是FP8的两倍,FP4的优势在于增强了数据传输速率,它通过为每个神经单元采用4比特而非8比特进行计算,从而使得运算效率、数据传输容量以及模型体积都实现了翻倍增长。若把B200折算成FP8规格同H100对比,那么B200在理论层面仅比H100多出2.5倍的性能表现,B200的效能增强很大程度得益于两个芯片之间的互联机制。
CPU通用处理器遵循的摩尔法则,即单位面积晶体管数量以18个月为周期翻倍的现象,现已步入尾声。台积电在3纳米工艺上的进展,并未促成芯片性能实现跨越式的飞跃。2023年9月苹果发布的A17 Pro芯片,虽由台积电采用首个3纳米工艺制造,其CPU表现力仅比前代提升了百分之十。芯片制造前沿工艺的投资极为可观,远川研究机构披露,2023年台积电的晶圆制造服务费用,相较于两年度前,尖端工艺增长了约十六个百分点,而常规工艺则提高了三十四个百分点。
台积电还有另一个主要的芯片客户,那就是英伟达,英伟达的旗舰AI芯片H100,它运用了台积电的N4(5nm)制造技术,并且借助了台积电的CoWoS高级封装能力。
摩尔定律宣告终结,黄仁勋提出全新法则,称图形处理器性能每两年能实现翻番以上,他强调突破并非局限于单一芯片,而是整个技术体系的协同进步。
英伟达正不断拓展多卡协作的技术路线,由于3纳米制程的改进空间不大,英伟达的B200方案决定将两枚4纳米芯片并置部署,借助超高速的芯片内部连接通道,构建出一个拥有超过两千亿个晶体管的巨型芯片单元。在英伟达GTC大会上,黄仁勋对芯片本身的性能数据轻描淡写,将主要精力放在了DGX系统层面的展示上。
英伟达的多卡互联技术是其核心竞争力所在,这种技术采用点对点高速连接方式,能够将多个显卡直接相连,构建出高性能计算平台或深度学习网络,同时引入了统一内存机制,让相连显卡的内存可以共享,这对于处理海量数据的工作来说非常关键。
而是一种快速交换网络方案,能够将众多图形处理器与中央处理器直接相连,从而构建出一个运算能力极强的计算平台。
借助援助,英伟达以非凡的魄力将七十二枚B200组合起来,由此打造出“最新型运算核心”GB200 NVL72。一套具备此类“运算核心”的机架,其FP8精度的训练性能就极为惊人,几乎媲美H100时期一个DGX巨型计算平台(一千台)。
英伟达公开表示,这款创新处理器预计于2024年下半旬发售。现阶段,亚马逊、戴尔、谷歌、Meta、微软以及特斯拉均打算采用该类图形处理器。
采用批量销售卡片的模式,能够满足大型模型企业的用卡要求。把多个GPU设备组合起来,形成数据中心集群球迷网,这种方式更契合大型模型企业与云服务提供商的采购习惯。根据英伟达2023财年财务报告,该公司数据中心业务营收的百分之四十,是由超大型数据中心和云服务提供商贡献的。
到美国东部时间三月十八日美国股市收盘,英伟达股票价格是八百八十四点五五零美元,公司整体价值达到二万一千一百亿美元。