查看原文
其他

AMD发布系列AI芯片,英伟达最强竞争对手来了|智涌分析

杨逍 智能涌现 2024-04-01

文|杨逍

编辑|苏建勋

封面来源|AMD

AMD带来了更强的AI芯片。

12月7日凌晨,AMD召开发布会,正式推出AI芯片——用于训练和推理的MI300X GPU,和用于HPC(高性能计算)的MI300A APU,以及用于AI PC 上的Ryzen 8040系列移动处理器,可谓带来了整个AI大礼包。

△AMD的最新数据中产品

一年前,AMD曾预测到2027年AI工作负载的市场空间将达到1500亿美元。如今, AMD将认为2027年会达到4000亿美元。

AMD CEO苏姿丰表示:“英伟达现在占有大量市场,但是我们可以在这个市场分一杯羹。”

在算力芯片竞争激烈的当下,AMD被认为是最有望与英伟达竞争的公司。

这次发布会,AMD也没有让大家失望。它从各个维度对比了其MI300X芯片与英伟达H100的参数,都有1.3倍甚至2倍的数据提升。

目前,MI300X已经向HPE、戴尔、联想、SuperMicro等OEM厂商发货,预计将于下季度上市。该产品将会被用于微软Azure和甲骨文云上。

AMD还宣布推出了Instinct MI300A APU,将主要用于HPC市场。它已被用于美国劳伦斯利弗莫尔实验室正在安装的超级计算机El Capitan,它将会成为世界上第一台2 Exaflop的超级计算机。

除了用于数据中心的产品,AMD还带来了用于笔记本电脑的处理器——添加AI功能的Ryzen 8040系列移动处理器。

此外,AMD还路透了Ryzen AI路线图,称下一代Ryzen AI CPU将在2024年出货,代号为“Strix Point”,能将性能提高到上一代产品的3倍以上。

MI300X :推理速度比H100更快

MI300推出时,便被认为是H100的最大竞敌。

为了更好地在数据中心市场竞争,AMD将其GPU产品线分为用于图形的RDNA产品线和用于计算的CDNA产品线。

此次发布的MI300X GPU采用CDNA3架构,主要用于计算引擎,有192GB的HBMS,5.3TB/S的内存带宽和和达到896GB/s的Infinity Fabric带宽。

△AMD MI300X性能介绍

在架构设计上,MI300X GPU也有其独特之处,它有8个XCD(加速计算芯片)、4个IO芯片(接口芯片)、8个HBM3堆栈(三星高性能存储芯片),有256MB缓存,采用3.5D封装。

△AMD MI300X主要规格

在这种架构设计下,它有1530亿个晶体管,是一款非常大的芯片。这让其在AI领域比H100(可能更接近H200)更快,内存更大。

在AMD看来,MI300X在高性能计算场景,性能上是NVIDIA H100的2.4倍,在人工智能方面约为1.3倍。

△AMD MI300X与英伟达H100对比

AMD CEO苏姿丰表示 “当你向模型提问时,你希望它能更快地返回,尤其是当答案变得更加复杂时。”

苏姿丰介绍道,MI300X与H100相比,拥有更大的高带宽内存,MI300X采用了八个HBM3堆栈,容量达到192GB,而H100只有80GB。

在性能上,MI300X的训练速度和H100相当。

△MI300X的训练速度和H100对比主要规格

但在推理上,AMD具有优势,在运行Bloom时,MI300X的推理速度是H100的1.6倍,运行Llama2时,推理速度是1.4倍。

△MI300X的推理速度与H100对比

AMD目前并未透露MI300X的定价,但Nvidia的产品售价约在4万美元。苏姿丰表示,AMD芯片的购买和运行成本必须低于Nvidia的芯片没,才能说服客户购买。

目前,该硬件已经向HPE、戴尔、联想、SuperMicro等OEM厂商发货,预计将于下季度上市。

Meta表示将使用MI300X GPU来处理AI推理工作负载,例如处理AI贴纸、图像编辑和操作其助手。

AMD还有多个云合作伙伴。微软表示,MI300X现已在Azure上推出预览版,甲骨文云也将与AMD合作。

MI300A ,面向HPC市场的APU

会上,AMD还带来了业内首款用于数据中心领域的APU,它将CPU和GPU结合在同一个封装中,产品定位是与英伟达的Grace Hopper Superchips竞争。

MI300A与MI300X采用相同的基本设计和方法,MI300A采用6个XCD(计算单元),4个IO die(接口芯片),并8个HBM3堆栈,它拥有高达256MB的AMD Infinity Cache,在设计上采用了3.5D封装的设计。

△AMD MI300A性能

不过MI300X采用12Hi HBM3堆栈,容量为192GB,而MI300A使用 8Hi堆栈,容量为128GB。调整内存,是为了抑制功耗、热量和成本,这些是传统HPC(高性能计算市场)市场最在意的点。

△AMD MI300A架构规格

这款APU有一个很大的优势,它无需在CPU\GPU直接进行数据传输。在产品设计上,MI300A的内存可以同时支持GPU、GPU,这意味着,它无需在CPU和GPU之间进行数据传输,能节省下大量的工作和消耗。

AMD表示MI300A的能效是NVIDIA GH200的两倍。这款产品也将是H200的主要竞争对手。

△MI300A与H200对比

功耗上,AMD Instinct MI300X的额定功率为750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。

这款性能强大的APU芯片,也是AMD为El Capitan 超级计算机提供动力的芯片,El Capitan将成为世界上第一台2 Exaflop超级计算机。这也侧面证明了AMD的实力。

MI300A在处于量产中,将在不久后上市。

发布ROCm 6加速器,绕开Cuda壁垒

虽然在硬件上有不错的性能,但AMD的软件能力一直较弱,难以支持开发者完成各种工作。

在发布会上,AMD首席技术官Victor Peng分享了ROCm的最新进。ROCm是AMD的开源软件栈,它是Nvidia CUDA的竞争对手。下一代ROCm 6将于本月末推出。

这款ROCm 6软件栈主要针对生成式AI(尤其是大型语言模型)进行了优化,可以支持、高级图形和内核优化、优化库和最先进的注意力算法(attention algorithms)等。

在运行vLLM时,ROCm 6能带来2.6倍的改进,与MI300X和ROCm 5的结合相比,ROCm 6能为MI300X带来8倍的优化。

△ROCm 6软件栈与上一代产品对比

目前,Instinct系列上运行着62,000个AI模型。Peng表示,ROCm 6 的到来,将会让AMD在软件上得到更广泛的拓展,未来会有更多模型在MI300X上运行。

Peng认为,开放生态系统的ROCm相比封闭的Nvidia Cuda具有优势。

例如,随着数据中心对GPU的需求量越来越大,如何将不同的GPU串联、进行通信,成为让数据中心运行更大规模数据的关键之一。AMD 的Infinity Fabric 技术是对外开放的。而Nvidia的CUDA则是专有的系统。对AMD来说,这将有效拓展网络协议合作公司数量。

未来,AMD 会继续与Hugging Face和PyTorch等合作,构建开源生态系统。

OpenAl也宣布,在Triton 3.0中会添加了AMD Instinct加速器的支持,希望提供开箱即用的支持,让开发人员可以在AMD硬件上做更多工作。

锐龙8040:让电脑跑起来大模型

除了数据中心市场,消费者市场也一直是AMD关注的重要市场。

AMD CEO苏姿丰表示,AMD会将NPU功能XDNA集成到锐龙7040芯片中,让锐龙7040具有人工智能加速功能,帮助在电脑上运行人工智能应用。

此外,苏姿丰宣布推出锐龙8040系列,代号Hawk Point。AMD声称AI工作负载的性能提高了60%。预计从2024年第一季度开始,为华硕、戴尔、惠普、联想和Razer等领先OEM厂商将供货

△锐龙8040系列

为了让芯片更好地用起来,AMD也一直在Windows系统上构建启用人工智能加速的软件生态系统。

目前,AMD也与微软达成合作,希望利用AI处理能力扩大AI生态系统。配备锐龙8040系列处理器后,用户可以访问开箱即用的使用AI,锐龙也会为用户提供隐私保护功能。

AMD也发布了Ryzen AI 1.0软件,这款软件将帮助客户在配备了NPU的笔记本电脑上轻松部署人工智能模型,支持在PyTorch或TensorFlow等框架中训练的机器学习模型。而通过Hugging Face提供的预先优化过的模型库,用户可以在几分钟内开始启动并运行AI模型。

此外,苏姿丰还透露了将于明年推出的下一代“Strix Point”处理器,锐龙8040相比,支持生成式AI的性能会提高三倍。

2023年,英伟达在数据中心几乎占据所有市场,到2024年,随着AMD多款产品的推出,以及英特尔Gaudi 3产品的上市,数据中心市场将迎来新的市场竞争格局。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存