(原标题:CPU需要HBM吗?)
若是您但愿不错不绝碰头,宽贷标星储藏哦~
开端:内容编译自nextplatform,谢谢。
英特尔是第一家在 CPU 封装中添加 HBM 堆叠 DRAM 内存的主要 CPU 制造商,其推出的处理器是“Sapphire Rapids”Max 系列 Xeon SP 处理器。但跟着“Granite Rapids”Xeon 6 的推出,英特尔撤废了使用 HBM 内存,转而罗致它但愿成为更主流的 MCR DDR5 主内存,该内存具有多路复用品级,可将带宽提高近 2 倍于成例 DDR5 内存。
英特尔为 Sapphire Rapids 添加 HBM 内存有其原因。主要原因是提高百亿亿亿次级“Aurora”夹杂 CPU-GPU 超等规画机的 CPU 性能,该超等规画机是英特尔在惠普企业的匡助下为阿贡国度践诺室打造的。Aurora 机器领有 21,248 个 Xeon SP Max 系列 CPU,封装在 10,624 个节点中,此外还领有总共 63,744 个英特尔“Ponte Vecchio”Max 系列 GPU。(即单个节点中两个 CPU 搭配六个 GPU,这险些是任何东谈主皆不错装入 Cray EX 滑轨空间的全部。)
向 CPU 添加 HBM 内存的另一个原因是但愿其他 HPC 中心能够发现,由于尚未将其诈欺步伐移植到 GPU,因此只可使用 CPU - 或者即使移植了也无法在责任负载上获取邃密的性能 - 领有更多内存带宽的 CPU - 约莫是鄙俗 DDR5 内存的 4 到 5 倍 - 这将显耀提高带宽受限诈欺步伐的性能,而无需将这些代码移植到 GPU。
咱们合计将 HBM 装配在 CPU 上的念念法是合理的。
除了 Aurora 除外,还有一些值得把稳的机器使用这种内存,包括2022 年 9 月在洛斯阿拉莫斯国度践诺室装配的“Crossroads”ATS-3 全 CPU 集群。Crossroads总共有 11,880 个 Intel Xeon SP-9480 Platinum Max 处理器,其中有 56 个内核,运行频率为 1.9 GHz,总共有 660,800 个内核,在 FP64 精度下可提供 40.18 teraflops 的峰值表面性能,功率为 6.28 兆瓦。
关联词,正如咱们所说,Granite Rapids Xeon 6 处理器莫得配备更大 P 核的 HBM 变体,这为 AMD 推出 HBM 前端 CPU 掀开了大门,这是传说中的 Instinct MI300 系列规画引擎的“Antares-C”变体。
“Antares” MI300X 具有八个 GPU 芯片,就软件而言,其外不雅和嗅觉就像单个 GPU。本周在 SC24 超等规画契机议上亮相的劳伦斯利弗莫尔国度践诺室“El Capitan”系统中使用的“Antares-A” MI300A 具有六个 GPU 芯片和三个八核“Genoa”芯片,总共 24 个内核。(每个芯片八个内核。)本周在 SC24 会议和拉斯维加斯的微软 Ignite 行径上皆布告了 MI300C,MI300 封装实足填充了 Genoa 芯片 - 即两列六个芯片中有十几个芯片 - 总共可产生 96 个 Genoa 内核,咱们推测其运行频率与 El Capitan 中使用的 MI300A 混总规画引擎上使用的 Zen 4 内核相通,为 1.9 GHz。在单核活跃的情况下,这些内核在 Turbo 阵势下最高可达到 3.7 GHz。趁机说一下,MI300A 上的 GPU 芯片峰值速率为 2.1 GHz。
不外,这款栽植并非以 MI300C 的称号出售,而是 Epyc CPU 产物线中的一款时代产物,被称为 Epyc 9V64H,与英特尔的 Xeon SP Max 系列 CPU 雷同,明确针对 HPC 责任负载。也即是说,该栽植插入用于 MI300X 和 MI300A 栽植的 SH5 插槽,而不是用于 Epyc 9004(Genoa)和 9005(Turin)系列的 SP5 插槽。
值得把稳的是,AMD 过甚 MI300C 栽植的首个客户 Microsoft Azure 并未遴选基于较新的 Turin Zen 5 中枢创建规画引擎的变体。MI300C 的责任大致是在 AMD 运行径 El Capitan 制造夹杂 CPU-GPU 芯旋即完成的,AMD 无疑不念念走漏 Turin 的秘籍,不然 Lawrence Livermore 可能会条款 MI355A 将经由鬈曲的 Antares GPU 与 El Capitan 的 Turin CPU 配对。
(那会很风趣,不是吗?)
话虽如斯,关于 AMD 来说,基于基于 Zen 5c 内核的 Turin 芯片打造 MI355A 或 Epyc 9V65H 昭着不会是一个很大的工程挑战。Turin X86 CPU 于 10 月发布,它们提供以 3 纳米工艺蚀刻的八核 Turin 芯片,使每个插槽的芯片数目加多了 33%,因此中枢数目从 Genoa 的 96 个加多到 Turin 顶级部件的 128 个,加多了 33%。虽然,Turin 芯片和 MI300 SH5 插槽的布局咫尺可能与咱们的右侧一致,但表面上 AMD 不错通过将 16 个 X86 芯片罗列成两列来快速拼装出具有 128 个内核的 MI355C,就像它在骨子的 Epyc 9006 系列中也曾作念的那样。的确的问题是,为 MI300 系列分区的新 I/O 芯片是否不错映射到 Turin 芯片。
不管若何,咱们频繁饶有趣味地离题参议。
遑急的是,Epyc 9V64H 领有 128 GB 的 HBM3 内存,峰值时钟速率为 5.2 GHz,可提供统统 5.3 TB/秒的峰值内存带宽。比拟之下,使用 4.8 GHz DDR5 内存的鄙俗 Genoa SP5 CPU 插槽可在十几个 DDR5 内存通谈中提供 460.8 GB/秒的带宽。因此,在相通的 96 个 Genoa 规画中枢中,内存带宽提高了 11.3 倍。
趁机说一句,2022 年 11 月推出的 Xeon SP Max 系列 CPU有四个 HBM2E 内存堆栈,总容量为 64 GB,内存总带宽跳跃 1 TB/秒。AMD 提供的内核数目加多了 71%,内存容量加多了 2 倍,内存带宽约莫是配备 HBM 的英特尔 CPU 的 5 倍。
精巧之处在于,微软正在将 Epyc 9V64H 处理器放入Azure 云上的四插槽 HBv5 实例中,而况配置看起来内核和内存中的一些东西也曾从其峰值表面极限稍稍回退了少量,而其他东西也曾被调高了。
El Capitan 系统使用 Infinity Fabric 将四个 MI300A 单位交叉耦合到分享内存结构中,以便其夹杂 CPU-GPU 中枢全部分享 512 GB 的 HBM3 内存,而且看起来微软使用的是相通的架构:
据咱们所知,为惠普企业 (HPE) 制造系统板的东谈主也为微软 Azure 制造了系统板 - 以致可能是 HPE 为这些 Azure HBv5 实例以及它们背后的通盘办事器节点制造了系统板。
MI300C 使用的四路办事器卡(呃,Epyc 9V64H,请宥恕咱们)有四个 Infinity Fabric 端口,可交叉联接四个 SH5 插槽,内存结构带宽为 128 GB/秒,然后是四个挂在每个节点上的 PCI-Express 5.0 x16 插槽。微软暗意,这是迄今纵脱任何 AMD Epyc 平台的 Infinity Fabric 带宽的两倍。
非论如何,遑急的事情(亦然风趣的事情)是,AMD 使用 SH5 插槽为其 GPU 式规画引擎制作了四路分享内存配置,但其骨子 CPU 设立仍然最多只可杀青双向分享内存配置。关联词,若是您念念要一台 AMD 四路机器,那么 El Capitan 和 Microsoft iron 即是可能的。咱们合计,AMD 应该制造四路办事器,以在高端内存数据库和分析阛阓上与 IBM 和英特尔一较落魄,这为这项责任奠定了基础。
为了应酬 HPC 畛域需要高内存带宽的责任负载,Microsoft Azure 一直在其 HBv3 实例中使用64 核“Milan-X”Epyc 7V73X CPU,在其 HBv4 实例中使用96 核“Genoa-X”9V84X CPU。这些是 AMD 为 Microsoft Azure 创建的 Milan-X 和 Genoa-X 芯片的稀零变体,您会牢记,X 变体具有 3D V-Cache,可将其 L3 缓存加多三倍,并在带宽受限诈欺步伐上将其性能提高约 50% 至 80%,这在 HPC 模拟和建模责任负载中很常见。
转向 HBM 内存会让这些 3D V-Cache 数字首尾乖互,虽然,部分原因是 MI300C 复合体在这些 X86 中枢块下方有“Infinity Cache”,它充任联接中枢和外部 HBM 内存的超高速中间东谈主。咱们之前说过,咫尺再说一遍:一朝价钱富饶低廉,通盘芯片皆应该有 3D V-Cache,即使仅仅为了在规画复合体上为其他东西留出更多空间并平缓中枢上的 L3 缓存区域。
以下是微软制作的一张风趣的图表,展示了将 96 核 Genoa 规画详尽体迁徙到 MI300C 所带来的带宽上风:
本周,在 SC24 大会上,当咱们与劳伦斯利弗莫尔国度践诺室利弗莫尔规画公司首席时代官 Bronis de Supinski 驳倒 El Capitan 机器时,他向咱们评陈说,CPU 内核“获取的带宽跳跃了它们所能驱动的带宽”。这也许不错讲明为什么更多 CPU 莫得 HBM 内存。
若是咱们以 128 GB HBM3 内存中每个 MI300 系列 SH5 插槽 5.2 TB/秒的速率取值,并将四个插槽放在一谈,咱们将在四个 SH5 插槽上获取 20.8 TB/秒的总带宽。多年来,在咱们筹商过的大多数机器上,STREAM Triad 基准测试提供的执续内存带宽约为单个栽植峰值表面带宽的 80%。因此,在 STREAM Triad 上执续的带宽为 16.6 TB/秒。不错详情的是,Infinity Fabric 的 NUMA 特色有其自己的支拨,很难说这个支拨到底有多大。在 CPU 系统上,四路 NUMA 设立提供的性能约为表面 4 倍的 3.65 倍。(在 CPU 之间的连气儿数加多一倍的双向插槽上,您说的是 1.95 倍,而峰值表面为 2 倍。)
但在 Microsoft Azure 在其 HBv5 实例上运行的 STREAM Triad 测试中,执续内存带宽为 6.9 TB/秒,远低于峰值团聚带宽 20.8 TB/秒。斟酌到 CPU 内核可能无法像具有多半并行性的多半 GPU 内核那样驱动高带宽,也许有必要裁汰 HBM 内存子系统的速率以匹配 CPU 不错和不成作念的事情。这是一个奇怪的幽闲,咱们已致电 AMD 和 Microsoft,以匡助咱们更好地交融 STREAM Triad 效能比咱们左证 NUMA 支拨和往时在沉寂栽植上进行的 STREAM 测试效能所预期的要小 2.2 倍的情况。
话虽如斯,四路办事器 6.9 TB/秒的速率远远跳跃 Azure 用于提高存在内存带宽问题的 HPC 诈欺步伐性能的其他双插槽办事器。(咱们亦然。咱们不作念评判。)
HBv5 实例使系统中 512 GB HBM3 内存中的 400 GB 到 450 GB 可供 HPC 诈欺步伐使用。在这个范围的尖端,平均每个中枢 3.5 GB,这比 Sapphire Rapids HBM 设立的每个中枢略多 1 GB 要好得多。Azure 上的 HBv5 实例每个中枢最多不错有 9 GB 的内存,因为每个中枢的内存是用户可配置的。在机器上的 384 个中枢中,有 352 个可供实例上运行的诈欺步伐使用。62 GB 到 112 GB 的 HBM3 内存和 32 个中枢被分派给 HBv5 实例中的支拨。(奇怪的是为什么这个虚构机科罚步伐和其他支拨莫得像 Amazon Web Services 使用“Nitro”NIC 那样卸载到 DPU 上,而谷歌正试图使用“Mount Evans”NIC 来作念到这少量。
HBv5 实例已禁用 SMT 以提高性能,这亦然一个单佃农实例。该实例有一个 800 Gb/秒的 Quantum 2 InfiniBand 端口,该端口被隔离为四个虚构 200 Gb/秒端口,每个插槽一个。这些 InfiniBand NIC 用于将节点鸠合在一谈以分享责任,而况使用Azure VMSS Flex(虚构机范围集的缩写),其中的“Flex”暗意它相等无邪,因为它不错将虚构机散布在区域或可用区域的故障域中,微软暗意它不错“将 MPI 责任负载彭胀到数十万个 HBM 驱动的 CPU 中枢”。
这意味着微软也曾在各个地区装配了数千台四核 CPU 办事器,以便能够杀青这一观点。这些系统还具有基于以太网的 Azure Boost 汇注接口卡,可为 HBv5 实例下的机器提供 160 Gb/秒的联接。该机用具有 14 TB 的 NVM-Express 闪存,不错以 50 GB/秒的速率读取数据,以 30 GB/秒的速率写入数据。
HBv5 实例咫尺处于预览阶段,尚不表示何时可用。MI300C(呃,Epyc 9V64H)咫尺仅通过 Microsoft 提供,昭着是与 Microsoft 密切互助开辟的,Microsoft 但愿在 Azure 上运行更多 HPC 代码。关于很多 HPC 客户来说,领有不错在不需要移植代码的 CPU 上提供 GPU 级内存带宽的硬件无疑是从土产货到云霄的一大助力。
尽管如斯,咱们合计若是 OEM 和 ODM 能够获取 MI300C 那就太好了。也许 MI355C 或 MI400C 不错杀青这少量。
https://www.nextplatform.com/2024/11/22/microsoft-is-first-to-get-hbm-juiced-amd-cpus/
半导体佳构公众号保举
专注半导体畛域更多原创内容
眷注民众半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或救援,若是有任何异议,宽贷关系半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3955期内容,宽贷眷注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”分享给小伙伴哦足球下赌注官方全站app