IDF:Intel官方解读SandyBridge微架构-泡泡网

泡泡网CPU频道 PCPOP首页 / CPU / 新闻 / 正文

IDF:Intel官方解读SandyBridge微架构

2011年04月13日 00:41作者：陈骋编辑：陈骋文章出处：泡泡网原创

泡泡网CPU频道4月13日 Intel Developer Forum 2011（英特尔信息技术峰会）于4月12日在国家会议中心正式召开。峰会首日下午，在学术报告厅举行了第二代英特尔酷睿微架构Sandy Bridge主题讲座。讲座共分为三部分，分别是：

第二代英特尔酷睿微架构：处理器的创新成果

主讲：Intel首席高级工程师Opher Kahn

下一代英特尔微架构代号Sandy Bridge：图形处理器

主讲：Intel高级工程师，首席多媒体工程师Hong Jiang博士

面向英特尔至强处理器的下一代英特尔服务器微架构代号：Sandy Bridge

主讲：Intel高级工程师：George Z.N. Cai

长达3个小时的主题演讲中，三位专家为我们详细讲解了Sandy Bridge微架构的特点，对其CPU、GPU部分的特点进行了全面剖析，并对还未上市的Sandy Bridge至强服务器芯片进行了预览。下面我们将为您带来讲座详细内容。

首先进行的是Sandy Bridge处理器架构的讲解。

第二代酷睿微架构处理器的核心代号为Sandy Bridge，它革命性的将CPU和GPU融合在一块芯片上，并且集成了内存控制器、PCI-E控制器。Sandy Bridge拥有高速三级缓存，全新的高级矢量扩展指令集、环形总线架构，为我们带来了全新的高性能、低功耗的芯片。这种架构适用于台式机、笔记本以及服务器。

该架构的一大设计理念是低功耗，在提高性能的同时，尽可能的降低功耗，让处理器更加“清凉”。

其中，Intel AVX指令集提高了浮点运算能力，AES加密、大整数RSA加速令Sandy Bridge在安全方面更加可靠，状态保存/恢复优化则带来了操作系统、虚拟机管理、服务器方面的新特性。这些拓展为重要的新型应用作好了准备。

Sandy Bridge处理器的处理流程发生了改变。前段微架构的处理顺序为：32K一级缓存>预译码>指令队列>译码器>分支预测单元。其中一级缓存为32KB的8路相连指令高速缓存，译码器部分包含4个译码器，每个时钟周期可处理器4条指令，指令队列处理方式包括微融合和宏融合，可将多条指令时间打包为一条“微操作”或将多对指令融合为一条复杂的“位操作”，译码流水线支持每个时钟周期16个字节。

此外，在前段处理器单元中还增加了一个译码微操作高速缓存，称之为0级（L0）指令高速缓存，代替了指令字节，对于大多数应用高达80%的命中率，此外，新架构还带来了更高的指令带宽和更低的延迟。译码高速缓存可以在每个时钟周期递送32字节，更多时钟周期可以保持每个周期4条指令，并能够缝合控制流程间的分支，从而达到更高的效能。

全新打造的分支预测单元则可以提供更高的预测能力、更有效的存储，并使相关操作保有更长的历史记录。译码微操作高速缓存让正常的前端休眠，译码一次而不是多次，本质上大夫减少分支-预测的失误率，从而减少了功耗并提升性能，使得Sandy Bridge的效率大大提升。Sandy Bridge新增了乱序群集，可以从前端接受微操作，当它们就绪时发送给执行单元，按照程序顺序引退，从而通过找到更多指令级的并行性来提高性能。

乱序群集通过物理寄存器文件（PRF）代替集中式的指令引退寄存器文件，为每项数据单独进行拷贝，在计算后不做数据转移，同时允许有效增加约33%的缓冲区大小。相比上代Nehalem架构，Sandy Bridge的缓冲区大小、项数均有提升，整数和浮点运算方式有本质的改变。

Sandy Bridge增加了Intel AVX指令集，使用了新的执行群集、存储器群集，可以扩展SSE浮点指令集到256bit的操作数，采用新的无损源语法和矢量运算，是面向低功耗的架构，矢量对于许多应用语言都是自然的数据类型，更宽的矢量和无损源语可用更少的指令详细描述更多的工作，使得现有工作得到有效扩展。Sandy Bridge的浮点运算能力大幅增加。AVX指令集可以利用2组128
bit执行栈，令执行群集重新使用现有数据路径达到双重使用的目的。

在存储器群集上，256KB的高速二级缓存在每个时钟周期可以进行16字节的加载和存储，双重使用现有链接使得加载、存储管线堆成，每个周期能进行2条16字节读取请求和1条16字节存储请求，并能通过内部时序处理器处理排队请求。

Sandy Bridge增强了加密指令运算量，在上代Westmere核心的酷睿产品中就引入了的AES指令集，带进位的加法运算量倍增，支持64bit被乘数和128bit乘积计算，对现有RSA二进制运算提速25%。

在架构方面，Sandy Bridge高度集成化带来的主要创新包括：优化的功耗控制、环形架构、更高的带宽和高速三级缓存、内存控制器和PCI-Express接口。

更加优化的功耗控制可以针对处理器当前应用需求和整体功耗耗实时进行CPU/GPU功耗调整，并优化资源的分配，达到更高的效能。

全线的环形总线架构连接了计算内核、图形核心、三级高速缓存和系统代理。由32字节的数据环、请求环、确认环和侦听环组成。总线以内核频率和电压实现完全的管线互联，延迟、带宽、功耗都与内核同步提升或降低。（笔者：这也许解释了Sandy Bridge为什么无法再如以往那样进行大幅度的外频超频）环形架构的布线穿越三级缓存，使得片面积不受影响，环上数据总是选择最短的路径，从而保证了低延迟。环通讯协议保证了数据处理的一致性、排序以及与内核接口的问题。同时，它有良好的可扩展性，支持大量处理器互联，从而适应服务器系统的应用。

这一代Sandy Bridge处理器内部三级缓存采用了模块化的设计，这个模块位于内核和环之间，控制器让高速缓存实现环逻辑、仲裁，并和系统代理进行通讯，包括高速缓存未命中、外部侦听、非缓存数据存取。在每个高速缓存分块中包含高速缓存管线，其物理地址通过对源实现哈希散列计算得出，防止热点问题，目的是增加带宽。对映射地址维护数据的一致性和正确次序。同样，三级缓存也以核心的电压/频率运行，速度与核心同步提升/降低。

在此基础上，每个三级缓存模块都为全部核心和图形芯片所共享，在存储器边界检查之后，任何模块都可以存取三级缓存中的所有数据，而与代理分配存取路线无关。组相连机制是受控的，可以防止CPU和GPU核心之间的系统抖动，IA区域、图形核心区域、显示数据皆为一致性区域，依次涌入，这样可以达到节省内存带宽的效果，从而令CPU可以拥有更多的带宽。

虽然在同一个芯片上，但是Sandy Bridge的CPU和GPU使用分别的电压和频率，共同分担芯片的整体功耗，通过功耗预算，CPU和GPU之间的调整使得在不同应用中始终保持非常好的的分配，当CPU负载重时，GPU的能耗则相应降低，反之亦然。

Sandy Bridge集成显卡为主流游戏提供优异的显卡性能，可以为主流游戏和休闲游戏提供最优的功率性能。新增的单元可以带来高效的转码、消费级品质的电子显示处理特征。支持HTML5图形加速和2D媒体应用加速。

全新的Sandy Bridge图形核心采取了统一的显卡-CPU电源管理，可在CPU和显卡之间的资源分配上达到最优决策，从而提升效能，在显卡中使用了CPU登记的电源管理技术。独立的显卡和CPU电源控制允许电源按工作量需求进行分配,其电压和时序都是独立于CPU的。

固定的模块计算能达到最优平衡，在3D管道中每个点都有外在的固定功能模块，从而达到低延时、高吞吐量、简单的驱动编程模型，同时释放着色器，令其专注于渲染工作。

代的EU拥有更大的寄存器文件以提高并行度和复杂着色器的执行效率，对深度嵌套条件也能有效优化，数学计算能力提高了4~20倍，新的指令集与API、ISA一一对应，从而在同频率下达到更高效率。固定模块的设计去掉了正交状态，与上代产品相比，驱动运行时间大幅降低，释放了CPU负载，将能量更多分配到显卡上。

固有的并行计算优势包括：分支和循环的无线嵌套、单指令的预测评估，包括IF、Else、Endif、Do/While、End Do。程序视角的标量隐藏在硬件中，包含聚散单元、障碍和原子学并行计算加速器。

专用的多媒体单元可以支持主流解码器，进行高吞吐量的视频渲染，拥有高质量的增强和滤波。从而达到更低功耗下的高清解码/编码。它的多格式编解码其是一个专用并行引擎，支持MPEG2、VC1、AVC解码，并可进行AVC编码，变成具有高度灵活性和优化的流水线，从而带来革命性的视频转码效能。

除此之外，Sandy Bridge GPU还可以进行消费电子级别的色彩处理，包括肤色增强、自适应对比度增强及总体色彩控制，对视频可以进行高质量缩放、降噪滤波、解交织/电影模式检测和希捷增强滤波。

Sandy Bridge核芯显卡特性

最后，我们来看看Sandy Bridge在服务器应用方面的预览。

在今年第四季度，Intel将推出代号为Sandy Bridge-EX/EP的至强服务器处理器。它的环型总线和高速缓存都使其十分适合用作多核心互联架构的服务器用芯片。其中，Sandy Bridge-EP将又有多达8个核心和16个线程，集成PCI-E控制器，同时平台将集成串行SCSI（SAS）。

SNB-EP将通过环形总线将内核和高速缓存、系统代理全部连接在一起，数据存取将选择最短路径，有效降低延迟。得益于环形总线的可扩展性，基于Sandy Bridge架构的的服务器芯片可以支持大量处理器，例如成千上万个计算核心的超级计算机系统。同时，集成的PCI-E控制器、内存控制器和QPI总线架构为其带来了良好的可扩展性，适用于大系统的集成。

睿频2.0、AVX指令集等先进特性也都将在Sandy Bridge服务器处理器中一一得到实现，将带来更高的效能，是以往产品无法比拟的。■

附：本次会议所用PDF（本文所有截图均来自此PDF）演示文档下载：IDF2011技术讲座PDF演示文档完全下载

关于英特尔信息技术峰会（IDF）2011的资讯报道，请关注：

泡泡网IDF2011专题

IDF:Intel官方解读SandyBridge微架构

关注我们