AMD谈到了AI加速难题的不同部分——性能、每瓦性能、内存、加速器到加速器的连接、服务器到服务器的连接和软件。AMD将该产品与H100进行了比较,并展示了Meta和微软如何使用其产品。lgQesmc
AMD的股票反应积极,民间的话题变成了AMD从Nvidia手中抢夺市场份额。这有多现实?在AI加速市场上,AMD比英伟达有什么优势吗?我们着眼于一些将在不久的将来发挥作用的关键因素,以及谁拥有优势。lgQesmc
计算性能lgQesmc
理论上,MI300X对所有数据类型的性能都优于H100。MI300X甚至有更多的缓存、HBM和内存带宽。3.2TB/s的Infinity fabric在连接性方面令人印象深刻,AMD正在增强以太网以实现更好的服务器到服务器连接。AMD正在采取全面的方法,在系统层面实现人工智能加速,就像英伟达一样。然而,英伟达的H100自2022年以来一直在销售,英伟达的软件使其能够实现更好的性能。英伟达已经在几个客户数据中心,他们知道如何最好地使用加速器。AMD需要一段时间才能实现这一目标。lgQesmc
优势:英伟达(略有优势)lgQesmc
软件栈lgQesmc
AMD的软件栈是围绕ROCm (Radeon Open Compute platform)构建的,ROCm是Linux上GPU计算的开源软件基础。AMD使用OpenCL等行业标准,其用户可以根据需要修改和增强软件。英伟达的软件栈是专有的,开发者必须使用英伟达的软件来充分利用GPU的性能。然而,英伟达的堆栈是全面的、成熟的,可以在所有抽象层次上工作。它提供了低级加速库以及系统级扩展软件。lgQesmc
优势:英伟达lgQesmc
基准测试lgQesmc
基准测试是英伟达轻松获胜的一个领域。英伟达发布了大量的基准测试,包括行业标准MLPerf。这些分数多年来一直由几个第三方机构发布,并名列前茅。AMD作为后来者,还没有运行它们。我们预计AMD将在2024年推出一些基准测试。lgQesmc
优势:英伟达lgQesmc
训练工作负载lgQesmc
英伟达已经成为事实上的训练标准,没有客户会选择AMD(因为它的软件是低级抽象的),比如Nvidia的CUDA。英伟达对其培训基础设施收取高价,但在培训中,钱并不总是一个问题。培训基础设施的预算通常来自研发预算,而科学家们要求往往是最顶尖的技术和设施;AMD将需要一些时间来构建一个等效的软件栈,使客户能够充分利用其硬件。lgQesmc
优势:英伟达lgQesmc
推理(Inference)工作负载lgQesmc
推理是AMD可能具有优势的一个领域。与训练相比,推理对软件的需求更少。MI300X提供比英伟达更高的IN8性能,用于推理。AMD也已经发布了一段时间的产品,应该在生产环境中具有所需的稳定性。与训练工作负载不同,推理工作负载是定价敏感的,每美元的性能很重要。AMD的产品定价可能会低于竞争对手,从而提供一个更好的矩阵。lgQesmc
优势:AMDlgQesmc
市场渴望lgQesmc
英伟达一直是人工智能芯片热潮的最大受益者,在数据中心人工智能加速市场上享有垄断地位。数据中心客户渴望尝试另一种选择,而AMD正好给了他们希望。AMD能够提供与英伟达相当的性能和稳定性,客户可能会跃跃欲动。通过更具价格优势将产品定价低于英伟达,AMD还可以通过购买进入客户数据中心。lgQesmc
优势:AMDlgQesmc
总结lgQesmc
在我们考虑的六个类别中,英伟达在三个类别中有明显优势,在一个类别中略有优势。AMD在两个方面有明显的优势。然而,鉴于市场对英伟达替代品的渴望,AMD可以小心打好这张牌,从英伟达那里获得市场份额。lgQesmc
英伟达作为市场的领导者,将在明年推出下一代产品,这肯定会超过AMD的产品。AMD在MI产品线上已经走了很长一段路,当AMD的软件成熟时,竞争将会加剧。lgQesmc
责编:Elaine