新I/O技术有望成为实现3D芯片堆叠的最佳路径
摘要: 低成本有机基板搭配新的I/O技术有望成为实现3D芯片堆叠的最佳路径,NVIDIA公司首席科学家兼研发副总裁William Dally表示。
低成本有机基板搭配新的I/O技术有望成为实现3D芯片堆叠的最佳路径,NVIDIA公司首席科学家兼研发副总裁William Dally表示。该公司最早可能在明年就将尝试使用这种技术,为其定于2015年推出的图形处理器Volta做准备。
在一个有多人参与的访谈中,William Dally对在CPU和GPU间有缓存一致的内存需求颇不以为然,而其竞争对手AMD在参与这一技术的研发。Dally还强调了图形在计算摄影学和亿亿次(Exascale)运算中日益增长的重要性。
对向下一代半导体节点的升级换代来说,在工艺技术不再具有合理的投入产出比之际,芯片堆叠技术越来越被作为一种替代方案。
“过去,拥有最先进的节点技术至关重要,”Dally说,“当登纳德缩放比例定律(Dennard scaling)有效时,如果你落后一个节点,你将差1,000倍,基本上出局了。”
“现在,28nm和20nm之间的差距可能是20%至25%,”Dally说,“这对我意味着工艺不再像以前那样生死攸关,所以,如果我们在架构和电路设计方面很高明,我们就可以扭转我们比竞争对手落后一个节点而造成的劣势。”谈到主要竞争对手英特尔时,他这样表示。
图1:NVIDIA表示,将在2015年推出采用堆叠存储器的图形芯片Volta。
NVIDIA实验室的工程师正在研究一款巧妙的架构,该架构应用于面向未来的系统级封装器件的地参考信号方案。该方法仍处于研究阶段,,在20Gbps速率时每比特功耗不到0.5皮焦耳,Dally说。
I/O可以支持成本低于硅内插器的有机基质,但需要物理上更大的链接。NVIDIA需要每个引脚10Gbps的独立链路(约是当今链接速度的10倍)以支持200GBps的器件带宽,Dally说。
IBM已将较大的有机基板用于处理器模块,其一侧的量级达到100毫米,Dally说。他看到2.5D堆栈使用的基板位于图形裸片挨着DRAM堆栈的地方。他补充说,图形芯片产生的热量过高,以致无法与存储器垂直堆叠在一起,且这种堆栈面临相对高的成本和低良率问题。
NVIDIA一直研究堆叠芯片在“整个产品线”的应用情况,他说。首先在作为更传统产品系列一个成员的中端GPU上测试该技术是有意义的。
“我们需要以某种方式尝试,也试试两面下注,” Dally说,“当你用一种新技术批量生产产品时,你会学到很多东西,所以我觉得我们想以这样一种方式做这事:它增加了功能,但主流产品不依赖它。”
在最近的一个年度会议上,NVIDIA的首席执行官黄仁勋宣布,该公司将在2015年推出采用堆叠存储器的下一代图形处理器——Volta。不过,他没有透露该产品的任何细节或将采用的技术。
在有机基板上力推2.5D堆叠是有道理的,佐治亚理工学院该领域的研究人员Tummula Rao说。“我们佐治亚理工学院也在进行有机物的存储器堆叠研究,也打算做2.5D。”他说。
[#page#]
一名借助硅通孔进行3D堆叠研究的佐治亚理工学院的研究人员则相对保守。
“看起来有机内插器将在成本、良率和可靠性方面胜出,而硅内插器将在互连尺寸/间距、性能和功耗上占优,” Lim Sung Kyu表示,“如果目标应用需要高存储器带宽,我甚至不确定有机内插器是否能满足要求。”
图2:William Dally。
此外,Dally补充说,整合了CPU和图形内核的系统级芯片,并不需要对手AMD正在帮助开发的作为异构系统架构联盟一部分的所谓与缓存一致的那种内存架构。
相反,NVIDIA将在其Cuda编程环境实现虚拟存储器能力。它将使用指针和页表异常生成一个由图形芯片和宿主CPU共享的虚拟存储器池。NVIDIA将在2014年交付的其下一代图形芯片Maxwell将是第一款采用该技术的产品。
该技术将成为NVIDIA使用ARM核及支持Cuda的GPU的SoC(从预计今年出样片的Tegra 5开始)的一项关键能力。AMD的做法将被用于未来的、使用OpenCL建立在其x86和Radeon图形内核的SoC上。
“我想不出任何需要缓存一致性的应用,”Dally说,“该办法会在某些接口产生额外流量,可能成为瓶颈。”
Dally表示,图形是下一代超级计算机和智能手机的关键,并对其最新的竞争产品,英特尔的Xeon Phi 处理器进行了抨击。他说,“在未来五到十年,对超级计算机来说真正的挑战源于同样重要的能效和可编程性这两方面,”。
为实现明天的亿亿次计算系统,芯片功耗需要从当今的约100皮焦耳/状态改变降到约20皮焦耳,而需要编程的节点要从几百万飙升到数十亿,他说。NVIDIA的图形处理器现在用在大约50个世界最强大的超级计算机内,这要部分归功于Cuda的成熟。
英特尔的Xeon Phi(由x86核阵列组成的协处理器)正在超级计算机市场迅速得到认可。但Dally表示,该芯片缺乏作为一款能提供支持其路线图所需处理能力的可行图形处理器的 “基本能力”。他还批评Xeon Phi 不具有NVIDIA的图形内核具有的高能效、且是款基于奔腾时代x86核的产品。
“如果我是一名超级计算机设计师,我会担心Xeon Phi的长期可获得性。”他说。
在投资方面,“中国实现亿亿次超级计算机的路线图领先他人,并为此投入大笔资金。”Dally说,“尽管经济困难,欧洲的亿亿次超级计算机计划还没有缩水。但美国在该领域的投入在减少。”
在手机领域,图形处理器用于计算摄影学及一系列旨在使用户用手机拍照效果更佳的技术。NVIDIA和它的竞争对手正在推出支持高动态范围、补偿恶劣照明条件、防范模糊的芯片,以迎合业余摄影爱好者的需求。
“最终目标是使普通人成为专业摄影师,”他说,“我们目前在做大量工作——例如,一般来说,计算机视觉就是对车内外海量照相机应用进行集中处理的一个主要领域,”他补充说。
暂无评论