HBM(高带宽内存)、GDDR SDRAM(图形双倍速率同步动态随机存储器)

  • Post author:
  • Post category:其他


经历了几年的高速发展之后,人工智能(简称

AI

)不再是新鲜的名词,它已经作为一个重要的生产工具,被引入到我们工作和生活的多个领域。但在AI爆发的背后,随之而来的是对AI算力需求的暴增。

据OpenAI的一份报告显示,从2012年到2019年,人工智能训练集增长了30万倍,每3.43个月翻一番,但如果是以摩尔定律的速度,只会有 12 倍的增长。为了满足AI算力的需求,从业人员通过设计专用的AI芯片、重配置硬件和算法创新等多方面入手来达成目标。


AI算力需求增长

然而在此过程中,我们除了看到AI对算力的要求以外,内存带宽也是限制AI芯片发展的另一个关键要素。这就需要从传统的冯诺依曼架构谈起。作为当前芯片的主流架构,冯诺依曼架构的一大特征就是计算和内存分离的。那就意味着每进行一次计算,计算单元都要从内存中读取数据然后计算,再把计算结构存回到内存当中。


经典的冯诺依曼架构

在过往,这个架构的短板并不是很明显,因为处理器和内存的速度都都非常接近。但众所周知的是,在摩尔定律指导下的处理器在过去几十年里发生了翻天覆地的变化,但常用的

DRAM

方案与之相比,提升幅度不值一提。

再者,在AI时代,数据传输量越来越大。先进的驾驶员辅助系统(

AD

AS)为例。第3级及更高级别系统的复杂数据处理需要超过200 GB/s的内存带宽。这些高带宽是复杂的AI/ML算法的基本需求,在道路上自驾过程中这些算法需要快速执行大量计算并安全地执行实时决策。在第5级,即完全自主驾驶,车辆能够独立地对交通标志和信号的动态环境作出反应,以及准确地预测汽车、卡车、自行车和行人的移动,将需要巨大的内存带宽。

因此,AI芯片寻找新的内存方案迫在眉睫,其中HBM和GDDR SD

RAM

(简称GDDR)就成为了行业的选择。



为什么是HBM和GDDR ?

HBM就是High Bandwidth Memory的缩写,也就是高带宽内存,这是一项在2013年10月被JEDEC采纳为业界标准的内存技术。按照

AMD

的介绍,这种新型的

CPU

/

GPU

内存芯片(即 “RAM”),就像摩天大厦中的楼层一样可以垂直堆叠。基于这种设计,信息交换的时间将会缩短。这些堆叠的芯片通过称为“中介层 (Interposer)”的超快速互联方式连接至 CPU 或 GPU。将HBM的堆栈插入到中介层中,放置于 CPU 或 GPU 旁边,然后将组装后的模块连接至

电路板

尽管这些 HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,但通过中介层紧凑而快速地连接后,HBM 具备的特性几乎和芯片集成的 RAM 一样。更重要的是,这些独特的设计能给

开发者带来功耗、性能和尺寸等多个方面的优势。

从第一代HBM与2013年面世后,JEDEC又分别在2016年和2018把HBM2和HBM2E纳为行业标准。据了解,在HBM2E规范下,当传输速率上升到每管脚3.6Gbps时,HBM2E可以实现每堆栈461GB/s的内存带宽。此外,HBM2E支持12个DRAM的堆栈,内存容量高达每堆栈24 GB。

具体而言,就是说每一个运行速度高达3.6Gbps的HBM2E堆栈通过1024个数据“线”的

接口

连接到它的相关处理器。通过命令和地址,线的数量增加到大约1700条。这远远超出了标准

PCB

所能支持的范围。因此,硅中介层被采用作为连接内存堆栈和处理器的中介。与SoC一样,精细数据走线可以在硅中介层中以

蚀刻

间隔的方式实现,以获得HBM接口所需数量的数据线数。

得益于其巨大内存带宽的能力,使得连接到一个处理器的四块HBM2E内存堆栈将提供超过1.8 TB/s的带宽。通过3D堆叠内存,可以以极小的空间实现高带宽和高容量需求。进一步,通过保持相对较低的数据传输速率,并使内存靠近处理器,总体系统功率得以维持在较低水位。

根据Rambus的介绍,HBM2E的性能非常出色,所增加的采用和制造成本可以透过节省的

电路

板空间和电力相互的缓解 。在物理空间日益受限的数据中心环境中,HBM2E紧凑的体系结构提供了切实的好处。它的低功率意味着它的热负荷较低,在这种环境中,冷却成本通常是几个最大的运营成本之一。

正因为如此,HBM2E成为了AI芯片的一个优先选择,这也是

英伟达



Te

sla A100和谷歌在二代TPU上选择这个内存方案的原因。但如前面所说,因为HBM独特的设计,其复杂性、成本都高于其他方案,这时候,GDDR就发挥了重大的作用。

据了解,图形DDR SDRAM(

GDDR SDRAM

)最初是20多年前为游戏和显卡市场设计的。在这段时间内,GDDR经历了几次重大变革,

最新

一代GDDR6的数据传输速率为16Gbps。GDDR6提供了令人印象深刻的带宽、容量、延迟和功率。它将工作电压从1.5V降低到1.35V以获得更高的功率效率,并使GDDR5内存的数据传输速率(16比8 Gbps)和容量(16比8 GB)翻了一番。Rambus已经演示了一个运行速度为18 Gbps的GDDR6接口,显示这种内存架构还有额外的增长空间。

与HBM2E不同,GDDR6 DRAM采用与生产标准DDR式DRAM的大批量制造和组装一样的技术。更具体地说,GDDR6采用传统的方法,通过标准PCB将封装和

测试

的DRAMs与SoC连接在一起。利用现有的基础架构和流程为系统设计者提供了熟悉度,从而降低了成本和实现的复杂性。

与HBM2E宽而慢的内存接口不同,GDDR6接口窄而快。两个16位宽通道(32条数据线)将GDDR6 PHY连接到相关的SDRAM。GDDR6接口以每针16 Gbps的速度运行,可以提供64 GB/s的带宽。回到我们之前的L3汽车示例,GDDR6内存系统以连接四个DRAM设备为例,带宽可以达到200 GB/s。

采用GDDR6的主要设计挑战也来自于它最强大的特性之一:速度。在较低的电压条件,16 Gbps的信号速度下,保持信号完整性需要大量的专业经验知识。设计人员面临更紧的时序和电压裕度量损失,这些损失来源与影响都在迅速增加。系统的接口行为、封装和电路板需要相互影响,需要采用协同设计方法来保证系统的信号完整性。

总的来说,GDDR6内存的优异性能特性建立久经考验的基础制造过程之上,是人工智能推理的理想内存解决方案。其出色的性价比使其适合在广泛的边缘网络和

物联网

终端设备上大量采用。


根据Rambus发布的白皮书介绍,他们HBM2E接口完全符合JEDEC JESD235B标准。支持每个数据引脚高达3.6 Gbps的数据传输速率。该接口具有8个独立的通道,每个通道包含128位,总数据宽度为1024位。由此每个堆栈支持的带宽是461GB/s,每个堆栈由2、4、8或12个DRAMs组成。

Rambus有一套非常重要的工具——Lab Sta

TI

on。借助这个工具,Rambus会与客户进行合作,让他们将其HBM2E解决方案直接插入到他们的终端系统当中,来构建一个非常独立的内存子系统。

能在HBM2E IP获得这样的成就,一方面,Rambus的研发投入功不可没;另一方面,他们与SK海力士、AIChip和台积电多方人员的通力合作,也是他们能提供快速服务的原因之一。例如在SK海力士方面,它为Rambus提供的HBM2E内存达到了3.6G的数据传输速率,而在和合作过程中,两者又将HBM2E的速率进一步地推进到了4.0 Gbps;AIchip则为Rambus提供了

ASIC

的相关解决方案以及产品,帮助其设计了相关中介层以及封装;此外,台积电提供了一个交钥匙的2.5D Cowos封装以及解决方案,来更好地为Rambus打造一个晶圆上的基本架构。

“我们的解决方案适用于人工智能以及机器学习的训练,同时也非常适用于高性能计算系统和

5G

网络的基础设施建设”,Frank Ferro最后说。

除了面向AI训练的HMB2E IP,Rambus还推出了面向AI推理的GDDR 6产品。

据Rambus的白皮书介绍,公司的GDDR6接口专为性能和功率效率而设计,支持AI/ML和ADAS推理高带宽与低延迟要求。它由一个经共同验证的PHY和数字控制器组成,提供一个完整的GDDR6内存子系统。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250标准,每个引脚支持高达16 Gbps。GDDR6接口支持2个通道,每个通道有16位,总数据宽度为32位。Rambus GDDR6接口每针16 Gbps,提供带宽为64 GB/s。

在“内存墙”的限制下,为了满足AI应用的数据搬运需求,产业界正在探索不同的方法来解决问题。例如英国AI芯片初创企业Graphcore就希望通过分布式内存设计的方法解决这个问题。



版权声明:本文为Ehontoo原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。