英特尔80内核芯片“可完全正常运行”
2007-02-24 15:18:25
来源:半导体器件应用网
英特尔2007年2月12日在ISSCC 2007上发表演讲,公布了开发的集成80个CPU内核的微处理器详细结构及实际的性能测试结果。目前能够“完全正常运行”(演讲者Sriram Vangal)。虽是二维结构,但就连架构、数据处理方式、CPU内核之间的数据传输方式都与最新的标量型超级计算机所采用的架构和利用方法非常类似。
英特尔2006年9月和2007年2月11日曾陆续公开了一些与该芯片有关的部分信息。在此次ISSCC会议上则就该芯片运算单元的结构等详细设计及其主要工作原理,以及在温度等某些工作条件下实际测试到的运算性能发表了演讲。
从芯片的整体结构来看,利用开关电路将80个CPU内核连成了网格状。利用名为MPI(message passing interface,信息传输接口)的超并行超级计算机常用的库在CPU内核之间传输基于英特尔自主定义的位序列的“分组信息”,进行数据传输。CPU内核之间的传输带宽最大为32GB/秒。作为开关的“路由器”本身最大具备80GB/秒的传输容量。
从片上内存来看,在80个“Tile”中数据类内存为2KB,指令类内存为3KB。寄存器包括6个读取端口和4个写入端口,除利用浮点运算器以外,还可同时向数据类内存转发和接收数据加载指令及存储指令,以及向其他CPU内核转发和接收分组信息。CPU内核利用将多个指令汇总成长度为96位的VLIW(very long instruction word),在一个周期中可完成8次运算处理。
运算单元为9级管线,最初的5级负责乘法运算,后4级负责加法运算。也就是说,一个运算单元每个周期可完成2次浮点运算。由于每个CPU内核配备2个运算单元,因此在4GHz工作频率下,每个CPU内核的运算性能就是2×2×4GHz=16GFLOPS。整个芯片的运算性能则达到16GFLOPS×80=1.28TFLOPS。
80个内核仍使用一个PLL
尽管配备80个CPU内核,但负责时钟分配的PLL仍旧只有一个,所有CPU内核的工作频率都一样。这一点与AMD此次发表的四核处理器分别为每个CPU内核独立配置一个PLL,能够以内核为单位改变工作频率的做法形成了鲜明对比。
为了降低耗电量,英特尔在各个CPU内核中设计了6个能够开关时钟的门控点(gating point)。由此实现了“精细级时钟门控”功能,它能在每个Tile的21个区域中独立地切换每个区域的休眠模式和活动模式。
英特尔此次利用采用1248引脚LGA封装的芯片进行了性能测试。根据测试结果,在80℃芯片温度下运行某应用软件时单位耗电量的运算性能最大达到了10.5GFLOPS/W。同时使用80个CPU内核时的泄漏电流为总耗电量的9.6~15.7%。
至于未能采用本来应该配合该芯片使用的“3D层叠内存”,Vangal表示:“运行时无需3D层叠内存,不过,没有这种内存,所能处理的数据量会有限制。比如,在目前条件下无法完成1000×1000的并行运算等处理。”
本文为哔哥哔特资讯原创文章,未经允许和授权,不得转载,否则将严格追究法律责任;
暂无评论