R&D 100 Awards/MOSAIC 3D AI 晶片
「MOSAIC 3D AI 晶片」借由可弹性延伸的3D堆叠技术,将逻辑运算和记忆体整合在一起,提供AI产业更高效能、高弹性、高CP值的替代方案。
【撰文/陈怡如】
全球掀起AI大浪,对高频宽记忆体的需求也急速增长。工研院积极投入半导体前瞻技术,开发出将逻辑运算和记忆体整合在一起的「MOSAIC 3D AI 晶片」,以创新的3D堆叠技术,运算及记忆体弹性管理,推动晶片设计与制造技术革新,确保台湾在这场国际AI竞赛中保持领先地位,荣获2024全球百大科技研发奖。
AI浪潮势不可挡,随着AI处理器性能提升,对于提供高算力和大频宽的高速记忆体需求也愈来愈迫切。能提供更高频宽的「高频宽记忆体」(HBM),成了市场当红炸子鸡,但因制作工序复杂且价格高贵,仅限用于高阶伺服器产品,也因需求激增,面临供不应求的局面。
为了解决这个难题,工研院与力积电携手研发将逻辑运算和记忆体整合在一起的「MOSAIC 3D AI 晶片」,借由可弹性延伸的3D堆叠技术,使晶片间的传输距离从微米大幅缩短至奈米,产生的热能也仅十分之一,成本也仅五分之一,提供AI产业更高效能、高弹性、高CP值的替代方案。
首创3D堆叠方式 弹性组合记忆体
MOSAIC其实就是大家熟悉的「马赛克」,工研院电子与光电系统研究所经理罗贤君笑称,主要是该技术的动态随机存取记忆体(DRAM)可以根据晶圆大小和厂商需求任意堆叠组合,像马赛克一样可以自由拼贴而得名。
罗贤君解释,过去DRAM都是一大片固定尺寸进行封装,「这个技术把它化整为零,将DRAM切分成一小块、一小块,每一块就代表一个DRAM单位。」切分成一小块的好处是,第一容量可以变大,晶圆有多大,就可以组装多大的记忆体;第二资料传输速度可以变快,假设拼了4块,速度就变4倍,拼了8块就变8倍,数量愈多传得愈快。
团队的创举不只是让DRAM可以自由堆叠,还提出独特的3D结构。罗贤君指出,现有的HBM结构可看作是平面连接,当CPU要和HBM进行快速大量的资料传输时,必须先把资料从HBM传到载板,再从载板的线路通道传到CPU。
但工研院的解法是,运用3D堆叠的立体方式,直接把DRAM记忆体架在CPU上,由上往下就可以传输资料,罗贤君比喻,「就像搭电梯,资料直接下到1楼的CPU,不需要经过载板通道。」此举不仅将晶片的传输距离从微米大幅缩短到奈米,还能用便宜的DDR1的记忆体,达到如同DDR4甚至DDR5的传输速度。
也因为3D堆叠,资料传输通道的数量更多,比起HBM连线通道约1,000~2,000个,MOSAIC 3D AI 晶片可多达1、2万个,显著提升资料传输频宽;而3D堆叠也让整个晶片的体积缩小,大幅缩短运算核心,连带让中间传输的耗能大幅降低。而HBM因为技术难度高,成本高昂,MOSAIC 3D AI 晶片可大幅降低成本,仅需五分之一即可。
克服资料存取关卡 支援各种AI场景
虽然将DRAM切分成一小块的优点不少,但也带来新的技术关卡。罗贤君指出,发展成熟的DRAM产业,有行之已久的JEDEC标准,所有DRAM都要符合这个标准才行,但切分成小块就会面临到新的界面定义,以及新的电路和管理系统,这是团队面临的最大难题。
由于资料庞杂,1、2万个资料传输通道都必须集中处理,需要一个新的控制器,才能符合新的DRAM特殊规格架构,于是团队打造了数个阶层控制器,先收集处理DRAM的资料,再传输到CPU的大控制上。简单来说,如果拼了9块,就会有9个小控制器,再加上一个CPU的大控制器。
控制器也会面临讯号同步的问题,罗贤君比喻,就像10个人跳舞,每个人的动作都要一样才行。要做到晶片同步,需要分区切割、缓冲处理、资料预测、资料暂存等技术,团队克服这些资料存取的关卡,才能让控制器如常运作。
不只在晶片设计上,这项技术在制程上也有突破,由力积电负责一条龙组装,将逻辑运算与DRAM记忆体交由同一家厂商代工整合、堆叠的制造模式,打破业界现行需交由不同厂商负责的模式,客户也可以自备逻辑运算,由力积电整合,提供多层DRAM堆叠,客制化程度高,提供3D晶片一条龙的服务,目前已获国际晶片大厂青睐。
这项技术具有模组化、多阶层、易延展的特性,未来可支援各种AI应用场景,不管是小型的穿戴式装置、携带式终端,或是高效能运算(HPC)伺服器、大型云端运算系统,满足AI遍地开花的需求,「这项技术扮演一个承先启后的角色,会对AI发展带来非常重要的转变!」
罗贤君认为,当HBM一片难求时,这项技术可以为许多,资源有限却想投入AI晶片的中小型厂商,提供一个替代的解套方法。未来3D堆叠一定是趋势,也能帮助厂商先布局,率先试产相关产品,为将来的主流市场铺路,「带动台湾半导体产业一起升级」。