AMD四核9月10日发布 K10新品全面解析
● Barcelona新特性解析:引入全新SSE128技术
Barcelona中的一项重要改进是被AMD称为“SSE128”的技术,在K8架构中,处理器可以并行处理两个SSE指令,但是SSE执行单元一般只有64位带宽。对于128位的SSE操作,K8处理器需要将其作为两个64位指令对待。也就是说,当一个128位 SSE指令被取出后,首先需要将其解码为两个micro-ops,因此一个单指令还占用了额外的解码端口,降低了执行效率。
而Barcelona加宽了执行单元从64位到128位,所有128位的SSE操作不再需要进行解码分解为两个64位操作,并且浮点调度器也可以支持这种128位 SSE操作,提高了执行效率。
提高SSE指令执行单元带宽的同时,也会带来一些新的变化,也可以说是新的瓶颈:指令存取带宽。为了将并行处理器过程中解码数量最大化,Barcelona开始支持32字节每时钟周期的指令存取,而先前K8架构只支持16字节。32字节的指令存取带宽不仅对处理器SSE代码有帮助,同时对于整数指令也有效果。
AMD Architecture Comparison | ||
K8 | ||
SSE Execution Width | 64-bit | 128-bit |
Instruction Fetch Bandwidth | 16 bytes/cycle | 32 bytes/cycle |
Data Cache Bandwidth | 2 x 64-bit loads/cycle | 2 x 128-bit loads/cycle |
L2/Northbridge Bandwidth | 64 bits/cycle | 128 bits/cycle |
FP Scheduler Depth | 36 Dedicated x 64-bit ops | 36 Dedicated x 128-bit ops |
现在你获得了存取和解码更多的指令,而你还需要获得更多的数据送往执行核心,因此AMD还加宽了L1数据缓存和SSE寄存器之间的带宽。
AMD在SSE128方面的改进非常类似Intel Yonah到Merom的变化。在Conroe/Merom之前,Yonah在浮点SSE方面的表现并不如K8,我们之前曾经对比过同频下Yonah和K8处理器这方面的性能,在一般应用、3D渲染和游戏等测试中,Yonah基本可以和K8打平,但在视频编码方面,K8性能更好。不过在Core 2处理器发布后,AMD K8则不再有这方面的优势。