B25esmc
今天英伟达举办了GTC图形技术大会,在本次大会上,英伟达大力介绍了在AI领域所取得的重大成就,官方不但发了万众瞩目的 Hopper 架构 H100 加速卡,还推出了专为 AI 及超算设计的 CPU 处理器 Grace、AI 计算系统 "DGX H100"。B25esmc
B25esmc
B25esmc
B25esmc
800 亿个晶体管的Hopper H100
B25esmc
在2022 GTC大会上,英伟达宣布推出采用 Hopper 架构的新一代加速计算平台,这一全新架构以美国计算机领域的先驱科学家 Grace Hopper 的名字命名,将取代两年前推出的 NVIDIA Ampere 架构。B25esmc
B25esmc
同时,英伟达发布了其首款基于Hopper架构的GPU—英伟达H100。B25esmc
B25esmc
B25esmc
英伟达创始人兼CEO黄仁勋表示,“数据中心正在转变成‘AI工厂’,它们处理大量数据,以实现智能。NVIDIA H100是全球AI基础设施的引擎,让企业能够利用其实现自身AI业务的加速。”B25esmc
B25esmc
英伟达H100 集成了 800 亿个晶体管,采用台积电 N4 工艺,是全球范围内最大的加速器。B25esmc
B25esmc
拥有新的Transformer引擎 —— Transformer 现在已成为自然语言处理的标准模型方案,也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下,将这些网络的速度提升至上一代的六倍。可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。B25esmc
B25esmc
高度可扩展的 NVLink 互连技术,最多可连接达 256 个 H100 GPU,相较于上一代采用 HDR Quantum InfiniBand 网络,带宽高出 9 倍,带宽速度为 900GB/s。B25esmc
B25esmc
H100支持的第四代NVLink接口可以提供高达128GB/s的带宽,是A100的1.5倍;而在PCIe 5.0下也可以达到128GB/s的速度,是PCIe 4.0的2倍。B25esmc
B25esmc
内存方面,H100 还将默认支持 80GB 的 HBM3 内存,带宽为 3 TB/s,比 A100 的 HBM2E 快 1.5 倍。B25esmc
B25esmc
性能方面,H100 可提供高达FP64/FP32 60TFlops(每秒60万亿次),FP16 2000TFlops(每秒2000万亿次),TF32 1000TFlops(每秒1000万亿次),都三倍于A100,FP8 4000TFlops(每秒4000万亿次),六倍于A100。为了帮助优化性能,英伟达还拥有一个新的转换器引擎,它将根据工作负载在 FP8 和 FP16 格式之间自动切换。B25esmc
B25esmc
DPX 指令,与基于英伟达Ampere 架构的 GPU 相比,DPX 指令在英伟达H100 GPU 上将动态编程算法的速度提高了 7 倍,比基于 CPU 的算法快 40 倍。在具有四个英伟达H100 GPU 的节点中,该加速可以进一步提升。B25esmc
B25esmc
作为英伟达H100 GPU中内置的指令集,DPX 将帮助开发人员编写代码以在多个行业中实现动态编程算法的加速,从而促进疾病诊断、量子模拟、图形分析和路由优化的工作流程。B25esmc
B25esmc
在AI训练中,H100可以提供高达9倍的吞吐量。以Megatron 530B为基准,则可以提供16倍至30倍的推理性能。在3D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升6-7倍。B25esmc
B25esmc
Hopper 还包括提高安全性的更改,多实例 GPU (MIG) 现在允许在单个 H100 GPU 上运行七个安全租户。B25esmc
B25esmc
DGX H100 服务器
B25esmc
英伟达H100 GPU只是英伟达要介绍的一部分,与 A100一样,Hopper 最初将作为新的 DGX H100 机架式服务器提供。B25esmc
B25esmc
DGX H100 系统是新一代英伟达DGX POD 和英伟达DGX SuperPOD AI 基础设施平台的构建模块。配备 8 块 H100 GPU,以全新的 FP8 精度提供 32 Petaflop 的 AI 性能,并支持扩展,能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的海量计算需求。B25esmc
新的 DGX SuperPOD 架构采用了一个全新的英伟达NVLink Switch 系统,通过这一系统最多可连接32个节点,总计256块 H100 GPU。B25esmc
B25esmc
从第三季度起,英伟达的全球合作伙伴将开始供应英伟达DGX H100 系统、DGX POD 和 DGX SuperPOD。B25esmc
B25esmc
超级AI计算机 NVIDIA EOS
B25esmc
此外,英伟达还宣布推出全球运行速度最快的 AI 超级计算机 ——英伟达Eos。B25esmc
B25esmc
Eos 将由18个DGX POD、576台DGX H100系统,共计4608块DGX H100 GPU构建而成。英伟达Eos 预计将提供 18.4 Exaflops 的 AI 计算性能,比日本的 Fugaku 超级计算机快4倍,后者是目前运行速度最快的系统。B25esmc
B25esmc
在传统的科学计算方面,Eos 预计将提供 275 Petaflop 的性能。B25esmc
B25esmc
Grace CPU
B25esmc
英伟达在去年公布了首款数据中心处理器“Grace”,不过当时除了知道它会以 ARM 为核心,并使用英伟达自家的 NVLink 技术外,英伟达并没有公布太多的细节。在 2022 年的 GTC 上,CEO 黄仁勋终于公开了更多 Grace 的内容,包括以其为基础的 Grace CPU 超级芯片(Superchip)。B25esmc
B25esmc
B25esmc
它基于 Grace Hopper CPU+GPU 设计,只不过把显卡换成了CPU。这与苹果近期公布的 M1 Ultra思路相近。B25esmc
B25esmc
从架构上来看,Grace CPU Superchip 使用 Arm v9并且该芯片使用 Neoverse N2 设计。Neoverse N2 平台是 Arm 首个支持新发布的 Arm v9 扩展的IP,其性能比 V1 平台高出 40%。N2 Perseus 平台采用 5nm 设计,支持 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0。Perseus 设计针对每功率性能(瓦特)和每面积性能进行了优化。B25esmc
B25esmc
而功率消耗上看,Grace CPU Superchip 的两个 CPU 和板载内存都消耗 500W 的峰值功率。相对于其他领先的CPU,例如 AMD 的 EPYC(霄龙),每个芯片的最高功率为 280W(这不包括内存功耗)。英伟达表示Grace CPU 在市场上的效率将是竞争 CPU 的两倍。B25esmc
B25esmc
两个Grace CPU封装的,总计144个CPU内核(基于ARMv9指令集),缓存容量396MB,支持LPDDR5X ECC内存,带宽高达1TB/s。B25esmc
B25esmc
内存方面,Grace CPU Superchip 内存子系统提供高达 1TB/s 的带宽,英伟达称这是 CPU 的首创,是支持 DDR5 内存的其他数据中心处理器的两倍多。LPDDR5X 共有 16 个封装,可提供 1TB 容量。此外,英伟达指出,Grace 使用了 LPDDR5X 的第一个 ECC 实现。B25esmc
B25esmc
在模拟测试中的表现也极为出色,Grace CPU Superchip的SPECint 2017得分为740分,而AMD当前一代的 EPYC Milan 芯片其 SPEC 结果从 382 到 424 不等。B25esmc
B25esmc
英伟达表示,Grace CPU Superchip芯片会在2023年上市。B25esmc
B25esmc
NVLink-C2C
B25esmc
两个 Grace CPU 通过英伟达新的 NVLink 芯片到芯片 (C2C) 接口进行通信。这种“裸晶到裸晶”和“芯片到芯片”的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。B25esmc
B25esmc
与英伟达目前使用的 PCIe 5.0 PHY 相比,NVLink-C2C 可以提供高达 25 倍的能效和 90 倍的面积效率,支持高达 900 GB/s 或更高的吞吐量。NVLink-C2C接口还支持 CXL 和 Arm 的 AMBA 相干集线器接口 (CHI) 等行业标准协议。它还支持多种类型的连接,从基于 PCB 的互连到硅中介层和晶圆级实现。B25esmc
B25esmc
B25esmc
如上图所示,Grace Hopper Superchip 和 Grace CPU Superchip 系统还可以与多达 8 个 Hopper GPU 组合成多种不同的配置。这些设计使用英伟达的 ConnectX-7 SmartNIC (CX7),通过其内置的 PCIe 5.0 交换机实现 NVLink 通信,从而支持更广泛的系统到系统应用程序。B25esmc
B25esmc
NVLink-C2C 现在将覆盖英伟达的所有芯片,包括 GPU、CPU、SOC、NIC 和 DPU。英伟达还表示,它正在开放规范以允许其他公司在其小芯片设计中使用 NVLink。这为客户提供了使用 UCIe 接口或 NVLink 的选项,尽管英伟达声称 NVLink-C2C 已针对比 UCIe 更低的延迟、更高的带宽和更高的能效进行了优化。B25esmc
B25esmc
此外,英伟达还宣布将支持新的UCIe小芯片互连标准得到其他行业巨头的支持,如英特尔、AMD、Arm、台积电和三星。这种标准化的芯片到芯片互连旨在通过开源设计提供小芯片之间的通信,从而降低成本并培育更广泛的经过验证的小芯片生态系统。B25esmc
B25esmc
UCIe 标准旨在与其他连接标准(如 USB、PCIe 和 NVMe)一样越来越普遍,同时为小芯片连接提供卓越的功率和性能指标。英伟达对这一新举措的支持意味着我们理论上可以看到英伟达 CPU 芯片与未来的竞争芯片设计放在同一个封装中。B25esmc
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。B25esmc
责编:Echo