最高提升115% 英特尔45nm Penryn实测
● Penryn :基于Core 微架构再作改良
除了采用更先进的45奈米制程及加入全新 SSE4 指令集外,Penryn 亦基于Intel Core微架构设计作出多项改良,称为「Enhanced Intel Core Microarchitecture」,并加入了:
Fast Radix-16 Divider(快速 Radix-16 除法器)
Super Shuffle Engine(超级洗牌引擎)
Split Load Cache Enhancement(增强型缓存拆分负载)
Improved Store Forwarding(存储转发)
Faster OS Primitive Support(高速操作系统同步原始支持)
Virtualization Performance Improvements (增强的Intel 虚拟化技术)
Deep Power Down Technology(深度节能技术)
Enhanced Dynamic Acceleration Technology(增强型动态加速技术)
据Intel资深工程师兼Penryn微架构主管Stephen Fischer表示,与上代处理器产品相比,Penryn处理器在绘图效能约超过15%、视讯编码平均可提高20%、3D内容制作可提高逾30%,3D游戏效能更可高达40%,视乎软件设计而定。
◎ Enhanced Core MA :Fast Radix-16 Divider
Intel在Core微架构中支持每个周期可处理多达4个指令(对比旧有处理器最多只能同时处理3个指令),且重新采用较高效率的14层Pipeline Stages,为提升分支预测的能力及准确性,Branch Predictor的Bandwitdh提升至20Byte (K8、Banias 为16B,Netburst为4B),令指令执行效率大大提高。
此外,Core微架构更加入Macro-Fusion技术,可把部份指令组合成单一Micro-Op 指令,令特定情况下每个周期可执行5个指令,更保留Micro-op Fusion技术,把相同的Macro-ops混合成单一个Micro-ops 透过Out-of-order逻辑可减少10% 的Micro-op指令执行数,除提升核心的执行效率,同时也保持高能源效益。
Penryn处理器除沿袭Core微架构的优点外,并进一步改良除法器的设计,在科学计算、三维坐标转换和其它数学运算密集型功能中,其带来约2倍的除法器速度,所包含的新一代的快速除法技术称为 Radix-16,可加速浮点和整数的除法运算速度。
据了解,基数为4的算法会在每次迭代运算中计算其2位的商值,当提高到基数为16的算法时,则允许在每次迭代中计算4位的商值,进而使延迟缩减一半。
◎ Enhanced Core MA :Super Shuffle Engine
Intel在 Core微架构中加入128Bit-SIMD interger arithmetic及128bit SIMD双倍精准度Floating-Point Operations单元。旧有的处理器执行128Bit的SSE、SSE2及SSE3指令时,需要把指令分拆为2个64Bit指令,在2个频率周期完成,但Core微架构则只需要1个频率周期便能完成,执行效率提升达1倍,现时SSE指令集已普遍使用于主流软件中,包括绘图、影像、音效、加密、数学运算等用途,单周期128Bit处理器能力利用频率以外的方法提升效能。
另一方面,Penryn处理器也有显著改良,其加入全新Super Shuffle Engine,令SSE 指令运算更具效率,以往处理Unpacking、Packing、Align Concatenated Sources、Wide Shifts、Insertion及Horizontal Arithmetic Functions Setup等128Bit宽度的字节、字及Dword SSE数据时,均无法在单一周期内完成,但Super Shuffle Engine设计除可让这些不同性质的128Bit SSE指令,在1个周期内便可完成,减低延迟及吞吐量外,更不用在软件端中作出改良即可实现。